ROC secundaria

Etiquetas:

No más que decir, curioso formato de documento. Enhorabuena eduran, ya solo falta que uséis fuentes no reconocibles por OCR.

No me explique muy bien.

http://www.juntadeandalucia.es/educacion/www/portal/com/bin/Contenidos/O...

Si alguien sabe como buscar o extraer texto del documento le agradecería que me comentara como.

¿Se puede subir archivo (texto plano del borrador)?

Al editor le parece demasiado texto.

Es un PDF que permite copiar y pegar. ¿Cuál es exactamente el problema? ¿Qué editor es del que hablas? ¿Windows o Linux?...

Bueno, yo lo he probado con evince y xpdf en debian y con acrobat reader 9 en windows xp y de ninguna manera me deja buscar un texto o seleccionar parte de él para copiarlo. Cuando para otros pdf me deja sin problemas.

Me gustaría saber con que visor te permite seleccionar parte del texto y mandarlo al portapapeles.

Gracias.

Ah, ya veo lo que ocurre. El documento está creado con una fuente Unicode, donde los caracteres legibles los han puesto en otra parte de la habitual, por eso aunque veas la letra "A", no se corresponde con el código de la "A", sino con el de un carácter raro. Pero hay una solución con Adobe Acrobat:

  1. Imprime el documento a PDF, pero forzando en el botón "Avanzadas" fuérzale a "Imprimir como imagen" con resolución 600x600.
  2. Una vez creado el nuevo PDF, no tienes más que hacer un OCR. Para ello, en menú "Documento", submenú "Reconocimiento de texto OCR", opción "Reconocer texto usando OCR". Le das a todas las páginas, y te convierte nuevamente las imágenes a texto que ya sí es buscable .

Como te puedes imaginar, ya me había encontrado yo antes en tu misma situación .