Qué es y cómo funciona Google OCR

13 de febrero 2024

Autor

Los científicos de datos clasifican los diferentes tipos de tecnologías de OCR en función de sus usos y aplicaciones.

El reconocimiento óptico de caracteres (OCR) es el proceso por el cual se convierte una imagen de texto en un formato de texto que pueden leer las máquinas. Por ejemplo, si escanea el formulario o un recibo, su computadora guarda el escaneo como un archivo de imagen. No se puede utilizar un editor de texto para editar, buscar o contar las palabras del archivo de imagen. Sin embargo, se puede utilizar el OCR para convertir la imagen en un documento de texto con su contenido como datos de texto.

¿Cómo funciona el OCR?

El motor de OCR o el software de OCR funciona mediante los siguientes pasos:

Adquisición de imagen

Un escáner lee los documentos y los convierte en datos binarios. El software de OCR analiza la imagen escaneada y clasifica las áreas claras como fondo y las áreas oscuras como texto.

Procesamiento previo

El software de OCR primero limpia la imagen y elimina los errores para prepararla para la lectura. Estas son algunas de las técnicas de limpieza:

Se endereza o inclina ligeramente el documento escaneado para solucionar los problemas de alineación durante el escaneo.
Se remueven o eliminan manchas de imágenes digitales o se suavizan los bordes de las imágenes de texto.
Se limpian los cuadros y las líneas de la imagen.
Se reconocen guiones para tecnología OCR multilingüe.

Reconocimiento de texto

Los dos tipos principales de algoritmos de OCR o procesos de software que utiliza un software de OCR para el reconocimiento de texto se denominan coincidencia de patrones y extracción de características.

Coincidencia de patrones

La coincidencia de patrones aísla una imagen de carácter, llamada glifo, y la compara con un glifo almacenado de manera similar. El reconocimiento de patrones solo funciona si el glifo almacenado tiene una fuente y una escala similares a las del glifo de entrada. Este método funciona bien con imágenes escaneadas de documentos que se han escrito en una fuente conocida.

Extracción de características

La extracción de características divide o descompone los glifos en características como líneas, circuitos cerrados, dirección de línea e intersecciones de línea. Luego, utiliza estas características para encontrar la mejor coincidencia o el vecino más cercano entre los glifos almacenados.

Procesamiento posterior

Después del análisis, el sistema convierte los datos de texto extraídos en un archivo computarizado. Algunos sistemas de OCR pueden crear archivos PDF con anotaciones que incluyen las versiones anteriores y posteriores del documento escaneado.