Automatiza procesos con estos OCR libres

Publicado el 28 de febrero de 2017 por en ECM, Software libre

El reconocimiento óptico de caracteres, abreviado como OCR, es una tecnología informática que lee los caracteres de un archivo de imagen o PDF y los extrae en formato texto. Su historia se remonta a comienzos del siglo XX, si bien la tecnología tal y como hoy la conocemos empezó a desarrollarla Kurzweil Computer Products en 1974. En aquella época, los escáneres sólo podían reconocer textos escritos en un pequeño número de fuentes. La compañía Kurzweil sacó al mercado el primer OCR capaz de leer cualquier fuente sólo cuatro años después.

Esta tecnología se desarrolló con el propósito de crear máquinas lectoras para ciegos. Muy pronto se vio su utilidad en el ámbito de la gestión documental y actualmente se emplea sobre todo para automatizar procesos de negocio que impliquen la captura de datos, como el archivo de documentación o la tramitación de pedidos. Se trata de una funcionalidad muy demandada y prácticamente cualquier ECM actual se puede integrar con soluciones OCR, desde los más sencillos como OpenProdoc, hasta programas más avanzados como OpenKM o Alfresco.

Nuance OmniPage es el sucesor de aquel primer OCR y uno de los líderes en el mercado del procesamiento de imágenes. Otros software muy populares son ABBYY FineReader y Kofax Capture. Sin embargo, también existen alternativas de código abierto que hacen accesible esta tecnología a organizaciones con menos recursos y particulares. Echémosles un vistazo.

Tesseract

Logo de Google

Tesseract fue desarrollado por HP entre 1984 y 1995. Cuando se presentó en la Universidad de Nevada en 1995, su precisión sorprendió a los expertos en este tipo de tecnología. Sin embargo, no se volvió a saber nada de este OCR hasta 2005, cuando la compañía liberó su código. Desde 2006, está siendo desarrollado por Google y se distribuye bajo la licencia Apache 2.0.

Tesseract se considera el OCR open source más preciso y está disponible para descarga en su repositorio de Github. Su última versión estable es la 3.05, pero también está publicada la alpha de la versión 4.0. Está entrenado en más de 100 idiomas, soporta varios formatos de imagen (entre ellos, TIFF y PDF), lee documentos de varias páginas y funciona en GNU/Linux, Windows y macOS. Aunque carece de una interfaz gráfica nativa, se puede integrar fácilmente con ECM como OpenKM, Alfresco o Nuxeo y existen múltiples aplicaciones tanto de escritorio como en línea que usan Tesseract como back-end.

Cuneiform

Logo de Cognitive Technologies

Cuneiform fue desarrollado por la compañía rusa Cognitive Technologies como un software complementario a los principales modelos de escáner del momento. Su código fue liberado a finales de 2007, pero la empresa abandonó su desarrollo en 2009 y, en general, este OCR se ha quedado muy por detrás de Tesseract. La comunidad realizó un port para sistemas GNU/Linux que forma parte de los repositorios oficiales de Debian y Ubuntu.

GOCR

Logo de GOCR

GOCR es un OCR desarrollado bajo licencia GNU GPL para GNU/Linux, Windows y OS/2. El programa se puede descargar de la página oficial del proyecto. El programa tiene dificultades con fuentes serifas, textos en alfabetos no latinos e imágenes con ruido. A estas limitaciones hay que añadir que no recibe actualizaciones desde 2013, por lo que no lo recomiendo para un entorno profesional.

La lista de OCR open source no acaba aquí, pero si lo que estás buscando es una tecnología libre para tu organización te recomiendo que te decantes por Tesseract. Aunque es más lento que las soluciones de Nuance y de ABBYY, es muy preciso, tiene potencia suficiente para resolver con éxito las situaciones más habituales y cuenta con el respaldo de Google y de una comunidad muy activa.

¿Cuál es tu experiencia con este tipo de tecnología? ¿Recomendarías Tesseract o algún otro OCR libre? Cuéntanoslo en la sección de comentarios.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.