Servicios de OCR

Servicios de Reconocimiento Óptico de Caracteres (OCR) para la digitalización de textos

En SIGNEWORDS convertimos documentos escaneados, imágenes o archivos PDF en documentos en formato Microsoft Word u otros formatos de edición de texto similares. Este servicio permite trasladar el contenido de un documento en papel o de una imagen digital a un formato editable.

El hecho de automatizar la introducción de caracteres, evitando así la entrada por teclado, implica un ahorro de tiempo importante y un aumento de la productividad. Siempre procuraremos que se mantenga (o incluso se mejore) la calidad del original.

Descripción

OCR_ServicesEl Reconocimiento Óptico de Caracteres (OCR, del inglés Optical Character Recognition) es una aplicación de la inteligencia artificial que consiste en identificar de manera automática caracteres o símbolos a partir de una imagen. Un escáner enviará la imagen del texto al programa de OCR del ordenador. Así, el programa intentará identificar cada letra para convertir el contenido en texto editable.

A partir de una imagen perfecta (una imagen de dos niveles de gris), el reconocimiento de caracteres o símbolos se realizará mediante la comparación con unos patrones que contienen todos los caracteres posibles.

No todas las imágenes reales son perfectas, por lo que un OCR puede presentar algunos problemas:

– Puedes haber ruido, es decir, partes oscuras que el programa identifique de manera errónea como texto.
– Puede haber niveles de grises que no pertenezcan a la imagen original y que confundan al programa a la hora de convertir la imagen en texto.
– La conexión de dos o más caracteres por píxeles comunes también puede producir errores.
– Se puede producir separación errónea de caracteres, ya que no hay un espacio fijo entre ellos.

Programario

Podemos encontrar diferentes programas comerciales de OCR, como por ejemplo ABBYY FineReader, AnyDoc Software, Brainware, ExperVision TypeReader & RTK, Image to OCR Converter, Microsoft Office Document Imaging, Microsoft Office OneNote 2007, Nicomsoft OCR, OmniPage, Readiris, ReadSoft, RelayFax, Scantron, SmartScore, Transym OCR y Zonal OCR. También se pueden encontrar de código abierto, como CuneiForm/OpenOCR, GOCR, hOCR, Ocrad, Ocre, OCRopus, Puma.NET y Tesseract.

Muchos sistemas de OCR comerciales y de código abierto están disponibles para los sistemas de escritura más comunes, como el latín, el cirílico, el árabe, el hebreo, el hindi, el bengalí, el devanagari, el tamil, el chino, el japonés y el coreano.

Historia

1870-1931: Se conciben las primeras ideas de OCR. Se inventan dispositivos para asistir la lectura de las personas ciegas, como el optófono de Fournier d’Albe, una máquina que leía los caracteres y los convertía en código telegráfico estándar, y la máquina de lectura Tauschek.
1931-1954: Se inventan las primeras herramientas de OCR y se aplican a la industria. Estas herramientas podían interpretar el código Morse y leer un texto con voz.
1954-1974: Se desarrolla el Optacon, el primer dispositivo de OCR portátil. Se utilizan dispositivos similares para digitalizar los cupones y las direcciones postales de Reader’s Digest.
1974-2000: Los escáneres se utilizan para leer etiquetas de precios y pasaportes. Se crean empresas como Caere Corporation, ABBYY y Kurzweil Computer Products Inc.

En la década del 2000, el OCR se puso a disposición en línea como un servicio (WebOCR) en la informática en la nube y en aplicaciones móviles como la traducción en tiempo real de los signos desde lenguas extranjeras en un teléfono inteligente. Con la llegada de los teléfonos y las gafas inteligentes, los OCR se pueden utilizar en aplicaciones de dispositivos móviles conectados a Internet que extraen texto capturado con la cámara.

SOLICITA PRESUPUESTO GRATUITO