OCR Reconocimiento óptico de caracteres
Reconocimiento óptico de caracteres (OCR), significa que los procesos informáticos traducen imágenes de textos impresos o escritos a máquina en archivos de texto.
Requiere una computadora para ejecutar esta tarea un software de OCR. Esto hace que sea posible recuperar el texto de la imagen del texto impreso y guardarlo en un archivo que puede ser operado en un procesador de textos para el enriquecimiento, y se almacenan en una base de datos o al menos en un soporte seguro y legible por un sistema informático.
OCR parte de la imagen digital producida por un sistema óptico de un escáner de página (impresión, hoja mecanografiada, etc.), o una cámara digital, y envía un archivo de texto en varios formatos (formatos de texto sin formato procesadores de texto, XML).
Algunos programas de software tratan de mantener el enriquecimiento del texto, así como el diseño o reconstruir las tablas y recuperar las imágenes.
Algunos programas de software comprenden además una interfaz para la adquisición de la imagen digital.
Funcionamiento reconocimiento óptico de caracteres (OCR)
Hasta hace poco, el funcionamiento del sistema OCR de alto rendimiento era poco conocido como protegidas por el secreto comercial; software de código abierto (por ejemplo gocr) es más bien el trabajo de aficionados. La publicación en los sistemas de rendimiento de código abierto (especialmente Tesseract en 2006) ha cambiado un poco esta situación.
Etapas reconocimiento óptico de caracteres (OCR)
Las etapas de procesamiento se pueden resumir como sigue:
Pre-análisis de la imagen: el objetivo es mejorar el tiempo la calidad de la imagen. Esto puede incluir la recuperación de la imagen sesgada o distorsionada, corrección de contraste, el pasaje en dos tonos (papel y tinta en blanco y negro, o más bien), detección de bordes.
Segmentación en líneas y caracteres (o análisis de página) es aislar la imagen de las líneas de texto y caracteres dentro de las líneas. Esta fase también puede detectar en el texto subrayado, cuadros, fotografías.
El reconocimiento de caracteres: después de la normalización (escala, sesgar), una instancia de reconocer es comparado con una biblioteca de formas conocidas, y se llevó a la siguiente etapa como «cerca» (o N formas más cercanas) de acuerdo con una distancia o una probabilidad. Técnicas de reconocimiento de caer en alguna gran tipo:
Características de clasificación (características): una forma de reconocer es representado por un vector de valores numéricos, calculada a partir de esa forma. El número de características es del orden de 100 a 300. Si las funciones están bien elegidas, una clase de caracteres (por ejemplo, todo en mayúscula A) estará representada por una «nube» puntos contiguos en el espacio vectorial de características. El papel del clasificador es determinar qué nube (y qué clase de caracteres) para reconocer la forma más probable a la que pertenece. La clasificación general utiliza varios tipos de red neuronal artificial entrenada en grandes bases de posibles formas.
Métodos de métricas son para comparar el reconocimiento de formas, utilizando algoritmos de distancia, con un conjunto de modelos aprendidos. Este tipo de método se utiliza poco y está poco valorada por los investigadores, ya menudo ingenuo y probablemente menos eficaz que los métodos basados en características.
Métodos estadísticos: en el campo de reconocimiento de escritura, se le llama con frecuencia en métodos probabilísticos / estadísticas tales como cadenas de Markov.
El post-procesado utilizando métodos lingüísticos y contextuales para reducir el número de errores de reconocimiento: sistemas basados en reglas o métodos estadísticos basados en las palabras del diccionario, sílabas, N-gramas (secuencias de caracteres o palabras). En los sistemas industriales, técnicas especializadas para determinados campos de texto (nombres, direcciones) pueden utilizar bases de datos para eliminar las soluciones incorrectas.
Generando el formato de salida con el diseño de mejores sistemas.
Un problema particularmente difícil para los ordenadores y los seres humanos es uno de los registros religiosos más antiguos de bautismos y matrimonios, que contienen principalmente denominaciones, cuando las páginas pueden ser dañados por el clima, el agua o el fuego, y los nombres puede ser obsoleto o escrita de acuerdo a la ortografía de edad. Técnicas informáticas de procesamiento de imágenes pueden ayudar a los humanos en la lectura de textos extremadamente difíciles, como los manuscritos Palimpsesto de Arquímedes o Qumran. Los enfoques de cooperación donde las computadoras ayudan a los humanos y viceversa son un área interesante de investigación.
El reconocimiento óptico de caracteres es un área activa de investigación en ciencias de la computación desde finales del decenio de 1950 Al principio pensamos que era un problema fácil, pero parecía que se trataba de un acerca mucho más interesante. Se llevará muchas décadas a las computadoras, si logran un día para leer todos los documentos con la misma precisión que los seres humanos.