Serveis d’OCR

Serveis de Reconeixement Òptic de Caràcters (OCR) per a la digitalització de textos

A SIGNEWORDS convertim documents escanejats, imatges o arxius PDF en documents en format Microsoft Word o altres formats d’edició de text similars. Aquest servei permet traslladar el contingut d’un document en paper o d’una imatge digital a un format editable.

El fet d’automatitzar la introducció de caràcters, evitant així l’entrada per teclat, implica un estalvi de temps important i un augment de la productivitat. Sempre procurarem que es mantingui (o fins i tot es millori) la qualitat de l’original.

Descripció

OCR_ServicesEl Reconeixement Òptic de Caràcters (OCR, de l’anglès Optical Character Recognition) és una aplicació de la intel·ligència artificial que consisteix a identificar de manera automàtica caràcters o símbols a partir d’una imatge. Un escàner enviarà la imatge del text al programa d’OCR de l’ordinador. Llavors el programa intentarà identificar cada lletra per convertir el contingut en text editable.

A partir d’una imatge perfecta (una imatge de dos nivells de gris), el reconeixement de caràcters o símbols es realitzarà mitjançant la comparació amb uns patrons que contenen tots els caràcters possibles.

No totes les imatges reals són perfectes, així que un OCR pot presentar diversos problemes:

– Hi pot haver soroll, és a dir parts fosques que el programa identifiqui de manera errònia com a text.
– Hi poden haver nivells de grisos que no pertanyin a la imatge original i que confonguin el programa a l’hora de convertir la imatge en text.
– La connexió de dos o més caràcters per píxels comuns també pot produir errors.
– Es pot produir separació errònia de caràcters ja que no hi ha un espai fix entre aquests.

Programari

Podem trobar diferents programes comercials d’OCR, com per exemple ABBYY FineReader, AnyDoc Software, Brainware, ExperVision TypeReader & RTK, Image to OCR Converter, Microsoft Office Document Imaging, Microsoft Office OneNote 2007, Nicomsoft OCR, OmniPage, Readiris, ReadSoft, RelayFax, Scantron, SmartScore, Transym OCR i Zonal OCR. També en podem trobar de codi obert, com CuneiForm/OpenOCR, GOCR, hOCR, Ocrad, Ocre, OCRopus, Puma.NET i Tesseract.

Molts sistemes d’OCR comercials i de codi obert estan disponibles per als sistemes d’escriptura més comuns, com el llatí, el ciríl·lic, l’àrab, l’hebreu, l’indi, el bengalí, el devanagari, el tàmil, el xinès, el japonès i el coreà.

Història

1870-1931: Es conceben les primeres idees d’OCR. S’inventen dispositius per assistir la lectura de les persones cegues, com l’’optòfon de Fournier d’Albe, una màquina que llegia els caràcters i els convertia en codi telegràfic estàndard, i la màquina de lectura de Tauschek.
1931-1954: S’inventen les primeres eines d’OCR i s’apliquen a la indústria. Aquestes eines podien interpretar el codi Morse i llegir un text amb veu.
1954-1974: Es desenvolupa l’Optacon, el primer dispositiu d’OCR portàtil. S’utilitzen dispositius similars per digitalitzar els cupons i les adreces postals de Reader’s Digest.
1974-2000: Els escàners s’utilitzen per llegir etiquetes de preus i passaports. Es creen empreses com Caere Corporation, ABBYY i Kurzweil Computer Products Inc.

A la dècada del 2000, l’OCR es va posar a disposició en línia com un servei (WebOCR) en la informàtica en núvol i en aplicacions mòbils com la traducció en temps real dels signes de llengües estrangeres en un telèfon intel·ligent. Amb l’arribada dels telèfons i les ulleres intel·ligents, els OCR poden utilitzar-se en aplicacions de dispositius mòbils connectats a Internet que extreuen text capturat amb la càmera.

SOL·LICITA PRESSUPOST GRATUÏT