OCR – Gestión documental con digitalización

En SIGNEWORDS nos encargamos de la gestión documental desde la perspectiva de la digitalización de documentos

Mediante el OCR – Gestión documental con digitalización de documentos, convertimos documentos escaneados, para la traducción de imágenes o archivos PDF en documentos en formato Microsoft Word u otros formatos de edición de texto similares, muchas veces para facilitar la traducción de imágenes o la traducción de fotos.

Digitalizar documentos permite trasladar el contenido de un documento en papel o de una imagen digital a un formato editable, para obtener documentos digitales.

El hecho de automatizar la introducción de caracteres, evitando así la entrada por teclado, implica un ahorro de tiempo importante y un aumento de la productividad. Siempre procuraremos que se mantenga (o incluso se mejore) la calidad del original.

OCR – Gestión documental con digitalización de documentos

Gestión documental SignewordsEl Reconocimiento Óptico de Caracteres (OCR, del inglés Optical Character Recognition) es una aplicación de la inteligencia artificial que consiste en identificar de manera automática caracteres o símbolos a partir de una imagen.

Se trata también de digitalizar imágenes

  1. Un escáner enviará la imagen del texto al programa de OCR del ordenador. Así, el programa intentará identificar cada letra para convertir el contenido en texto editable.
  2. A partir de una imagen perfecta (una imagen de dos niveles de gris), el reconocimiento de caracteres o símbolos se realizará mediante la comparación con unos patrones que contienen todos los caracteres posibles.

No todas las imágenes reales son perfectas, por lo que un OCR puede presentar algunos problemas:

  • Puedes haber ruido, es decir, partes oscuras que el programa identifique de manera errónea como texto.
  • Puede haber niveles de grises que no pertenezcan a la imagen original y que confundan al programa a la hora de convertir la imagen en texto.
  • La conexión de dos o más caracteres por píxeles comunes también puede producir errores.
  • Se puede producir separación errónea de caracteres, ya que no hay un espacio fijo entre ellos.

Programario o software de OCR

Podemos encontrar diferentes programas comerciales de OCR – Gestión documental con digitalización de documentos, como por ejemplo:

digitalizar documentos Signewords

  • ABBYY FineReader
  • AnyDoc Software
  • Brainware
  • ExperVision TypeReader & RTK
  • Image to OCR Converter
  • Microsoft Office Document Imaging
  • Microsoft Office OneNote 2007
  • Nicomsoft OCR
  • OmniPage
  • Readiris, ReadSoft
  • RelayFax
  • Scantron
  • SmartScore
  • Transym OCR
  • Zonal OCR

También se pueden encontrar de código abierto, como:

  • CuneiForm/OpenOCR
  • GOCR
  • hOCR
  • Ocrad
  • Ocre
  • OCRopus
  • Puma.NET
  • Tesseract

Muchos sistemas de OCR comerciales y de código abierto están disponibles para los sistemas de escritura más comunes, como:

  • el latín
  • el cirílico
  • el árabe
  • el hebreo
  • el hindi
  • el bengalí
  • el devanagari
  • el tamil
  • el chino
  • el japonés
  • el coreano

Historia del OCR y la digitalización de archivos

  • 1870-1931: Se conciben las primeras ideas de OCR. Se inventan dispositivos para asistir la lectura de las personas ciegas, como el optófono de Fournier d’Albe, una máquina que leía los caracteres y los convertía en código telegráfico estándar, y la máquina de lectura Tauschek.
  • 1931-1954: Se inventan las primeras herramientas de OCR y se aplican a la industria. Estas herramientas podían interpretar el código Morse y leer un texto con voz.
  • 1954-1974: Se desarrolla el Optacon, el primer dispositivo de OCR portátil. Se utilizan dispositivos similares para digitalizar los cupones y las direcciones postales de Reader’s Digest.
  • 1974-2000: Los escáneres se utilizan para leer etiquetas de precios y pasaportes. Se crean empresas como Caere Corporation, ABBYY y Kurzweil Computer Products Inc.
  • En la década de los 2000: el OCR se puso a disposición en línea como un servicio (WebOCR) en la informática en la nube y en aplicaciones móviles como la traducción en tiempo real de los signos desde lenguas extranjeras en un teléfono inteligente.

Con la llegada de los teléfonos y las gafas inteligentes, los OCR se pueden utilizar en aplicaciones de dispositivos móviles conectados a Internet que extraen texto capturado con la cámara.

SOLICITA PRESUPUESTO GRATUITO