Cómo OCR texto en PDF y archivos de imagen en Adobe Acrobat

Los documentos escaneados son geniales. Le permiten archivar pilas de papel en carpetas en su computadora, ocupando mucho menos espacio y siendo infinitamente más fácil de organizar, mover y copiar. Lo que no es tan bueno es encontrar contenido almacenado en uno de sus cientos de documentos escaneados. Por defecto, son poco más que una imagen de su documento, y si desea encontrar información dentro de ellos, tendrá que abrir cada uno y leerlo por sí mismo..

O bien, podría dejar que su computadora haga el trabajo pesado por usted, convirtiendo su imagen en texto y permitiéndole buscar en sus documentos escaneados con la misma facilidad con que busca en cualquier otro documento. Eso es lo que OCR-Optical docaracteristica Recognición-hace. Utiliza la inteligencia de su computadora para reconocer formas de letras en una imagen o documento escaneado, y convertirlas en texto digital que puede copiar y editar según sea necesario.

A continuación, le explicamos cómo puede utilizar la herramienta OCR incorporada en Adobe Acrobat para convertir sus documentos escaneados e imágenes de texto en texto digital real..

OCR un documento o imagen en Acrobat

Adobe Acrobat es el programa estándar original para crear, editar y visualizar archivos PDF. Se usa comúnmente en los negocios y se incluye con Adobe Creative Suite y la versión completa de Creative Cloud, por lo que es muy probable que su computadora de negocios ya lo tenga instalado, o puede instalarlo gratis desde su suscripción a Creative Cloud. Si es así, es una excelente herramienta para realizar OCR de sus documentos rápidamente en una Mac o PC.

Nota: este tutorial requiere Adobe Acróbata, no Adobe Lector. Esta última es una aplicación gratuita solo para ver archivos PDF. Si eso es todo lo que tiene, vaya al final de este tutorial para encontrar otras excelentes herramientas de OCR que puede usar..

Abra su imagen o PDF y haga que Acrobat comience a reconocer su texto. 

Acrobat puede reconocer texto en cualquier PDF o archivo de imagen en docenas de idiomas. Todo lo que tiene que hacer es abrir el documento escaneado o la imagen que desea OCR, luego haga clic en el azul Herramientas Botón en la parte superior derecha de la barra de herramientas. En esa barra lateral, seleccione la Reconocer texto pestaña, luego haga clic en En este archivo botón.

Ahora tendrás algunas opciones para modificar tu OCR. Si está reconociendo un documento que está en los idiomas predeterminados de su computadora (inglés (EE. UU.) En mi caso), simplemente haga clic en DE ACUERDO para obtener su texto reconocido. De lo contrario, haga clic en Editar… para seleccionar el idioma de OCR, elija el estilo de salida de PDF y la resolución que desea que use Acrobat al reconocer su texto.

Modifica tus configuraciones de OCR

Después de una breve pausa indicada por una barra de progreso en la parte inferior de la ventana, su texto será totalmente reconocido. Solo tomó alrededor de 15 segundos reconocer el texto en un formulario escaneado de 1 página en mi MacBook Air 2012, pero solo un par de minutos en un PDF de libro de texto a todo color de 30 páginas. Una vez hecho esto, puede seleccionar cualquier texto en el documento y copiarlo como de costumbre, o buscar texto en el documento. De forma predeterminada, Acrobat guardará el texto reconocido dentro del archivo original cuando haga un OCR de un PDF, y si hace un OCR de una imagen, guardará la imagen con su texto en un nuevo archivo PDF. De cualquier manera, el texto reconocido aparecerá en cualquier lector de PDF después, como si fuera un documento digital original..

Copie texto de un documento escaneado como texto sin formato o con formato, o simplemente use el PDF como un PDF normal

Con el texto reconocido, ahora puede marcar el PDF con todas las herramientas de marcado normales; puede resaltar, tachar el texto y más. Incluso puede copiar el texto con el formato detectado, aunque a menudo es menos preciso que el reconocimiento de texto en sí..

Exportar sus documentos OCRed

Si desea editar sus documentos escaneados originales, o tal vez reutilizar la información en ellos en un documento nuevo, querrá algo más que un texto seleccionable en un PDF. Usted querrá el documento completo convertido. Acrobat también lo hace fácil, OCR el texto y lo exporta como un nuevo documento en un solo paso.

Simplemente abra el documento que desea OCR y convierta, haga clic en ExpedienteGuardar como… y elige el formato que desees. Puede exportar como documento de Word o de texto enriquecido, hoja de cálculo Excel o CSV o como HTML. Agregue el nombre de archivo que desea y la ubicación donde desea guardar su nuevo archivo y haga clic en Salvar. Acrobat procederá a mostrar la misma barra de progreso en la parte inferior de la ventana, ya que reconoce el texto y el formato en su documento, y luego guardará la copia exportada..

Exporte sus imágenes y archivos PDF desde Acrobat con resultados variables.

Las exportaciones de Acrobat de documentos escaneados son sorprendentemente buenas y frustrantemente malas. Reconocerá la mayoría del texto y el formato, y es probable que se sorprenda de lo bonito que se ve el documento exportado si no es demasiado complejo. Pero entonces, todavía no es el documento original. Habrá errores, formateo que necesitarás arreglar, y más. La mejor manera es usar siempre el documento digital original, pero esta es una excelente manera de recuperar una copia digital de un documento si todo lo que tiene es un escaneo..

Si bien el OCR no es perfecto, el OCR de Acrobat es bastante bueno. En esta forma escaneada, casi todas las palabras se detectaron correctamente, aunque una instancia de la palabra Nombre fue detectado como Nebraska. Eso es lo suficientemente bueno si solo quiere poder buscar aproximadamente en sus documentos usando la herramienta de búsqueda de su lector de PDF, aunque si en realidad está usando el OCR para hacer una copia del texto original, querrá hacer una prueba. - Léalo primero y asegúrese de corregir cualquier error obvio..

OCR múltiples documentos a la vez

¿Tienes un montón de documentos que quieres OCR a la vez? Acrobat es genial para eso también. Simplemente abra cualquier documento en Acrobat, luego abra el Reconocer texto panel de barra lateral como antes. Esta vez, seleccione En multiples archivos y verá una ventana donde puede arrastrar todos los archivos que desee a OCR. Nuevamente, puede agregar archivos PDF o de imagen, y Acrobat reconocerá el texto y los guardará en formato PDF. También hay algunas opciones adicionales, donde puede elegir dónde guardar los archivos terminados y cómo desea que se los nombre..

Otras herramientas de OCR

Por supuesto, Acrobat no es la única forma de enviar texto OCR desde sus documentos escaneados. Si aún no tiene una copia del mismo, hay muchas otras herramientas que puede usar. Ya cubrimos las mejores herramientas para OCR en tu Mac: Prizmo, FineReader, la aplicación Doxie, PDFPen y Evernote. Prizmo y PDFPen también funcionan en sus dispositivos iOS para OCR sobre la marcha, y la aplicación Doxie también funciona en PC. Evernote no le permite copiar texto, pero funciona en todas partes, y en la PC, el OCR de OneNote es excelente y gratuito.

También está la biblioteca gratuita OCR de Tesseract, con una aplicación para Mac gratuita terriblemente básica que puede reconocer el texto por ti. Otra herramienta de OCR de bajo presupuesto es el texto pica, por $ 3.99. De cualquier manera, si OCR es todo lo que necesita, no tiene que obtener una copia de Acrobat solo para eso, pero si tiene Acrobat, su herramienta OCR es una gran ventaja..

Conclusión

Basta con dedicar unos minutos a la OCR de sus documentos PDF para convertirlos en imágenes básicas de sus documentos en papel a documentos digitales completos en los que puede buscar, copiar texto, marcar y exportar en formatos de Office. Acrobat ha sido difamado por su lector de PDF, pero aún tiene un montón de excelentes funciones, y OCR es una de ellas..

Si tiene una copia de Acrobat, o una suscripción a Creative Cloud, pruébelo y obtenga sus documentos escaneados OCR. Al instante serán mucho más valiosos para usted de lo que nunca serían tan simples escaneos.