Los investigadores utilizan la inteligencia artificial para descubrir los secretos de los textos antiguos
Evangelio del siglo VIII escrito en latín antiguo y conservado en la biblioteca de la Abadía de St. Gall en Suiza.

La biblioteca de la Abadía de St. Gall en Suiza alberga aproximadamente 160.000 volúmenes de manuscritos literarios e históricos que datan del siglo VIII, todos los cuales están escritos a mano, en pergamino, en idiomas que rara vez se hablan en los tiempos modernos. Para preservar estos relatos históricos de la humanidad, estos textos, que se cuentan por millones, se han guardado de forma segura en bibliotecas y monasterios de todo el mundo. Una parte significativa de estas colecciones está disponible para el público en general a través de imágenes digitales, pero los expertos dicen que hay una cantidad extraordinaria de material que nunca se ha leído, un tesoro de información sobre la historia del mundo escondido en su interior.

Ahora, los investigadores de la Universidad de Notre Dame están desarrollando una red neuronal artificial para leer escritura antigua compleja basada en la percepción humana para mejorar las capacidades de transcripción de aprendizaje profundo.

«Estamos tratando con documentos históricos escritos en estilos que han pasado de moda hace mucho tiempo, que se remontan a muchos siglos atrás, y en idiomas como el latín, que ya casi nunca se usan«, comenta Walter Scheirer, profesor asociado en el Departamento de Ingeniería y Ciencias de la Computación de Notre Dame. «Podemos obtener hermosas fotos de estos materiales, pero lo que nos propusimos hacer es automatizar la transcripción de una manera que imite la percepción de la página a través de los ojos del lector experto y proporcione una lectura rápida y de búsqueda del texto”.

El equipo pudo ajustar el programa de inteligencia artificial para transcribir textos etíopes, adaptándolo a un idioma con un conjunto de caracteres completamente diferente

En una investigación publicada en la revista Transactions on Pattern Analysis and Machine Intelligence del Institute of Electrical and Electronics Engineers, Scheirer describe cómo su equipo combinó los métodos tradicionales de aprendizaje automático con la psicofísica visual, un método para medir las conexiones entre los estímulos físicos y los fenómenos mentales, como la cantidad de tiempo que le toma a un lector experto reconocer un carácter específico, medir la calidad de la escritura a mano o identificar el uso de ciertas abreviaturas.

El equipo de Scheirer estudió manuscritos latinos digitalizados que fueron escritos por escribas en el Claustro de San Galo en el siglo IX. Los lectores ingresaron sus transcripciones manuales en una interfaz de software especialmente diseñada. Luego, el equipo midió los tiempos de reacción durante la transcripción para comprender qué palabras, caracteres y pasajes eran fáciles o difíciles. Scheirer explicó que incluir ese tipo de datos creó una red más consistente con el comportamiento humano, redujo los errores y proporcionó una lectura más precisa y realista del texto.

«Es una estrategia que no se usa normalmente en el aprendizaje automático«, asegura Scheirer. «Estamos etiquetando los datos a través de estas medidas psicofísicas, que provienen directamente de estudios psicológicos de percepción, tomando medidas de comportamiento. Luego informamos a la red de las dificultades comunes en la percepción de estos caracteres y podemos hacer correcciones basadas en esas medidas«.

El uso del aprendizaje profundo para transcribir textos antiguos es algo de gran interés para los estudiosos de las humanidades.

«Hay una diferencia entre simplemente tomar las fotos y leerlas, y tener un programa que proporcione una lectura que permita realizar búsquedas«, apunta Hildegund Müller, profesora asociada en el Departamento de Clásicos de Notre Dame. «Si se consideran los textos utilizados en este estudio, manuscritos del siglo IX, esa es una etapa temprana de la Edad Media. Es mucho antes de la imprenta. Es una época en la que se produjo una enorme cantidad de manuscritos. Hay todo tipo de información oculta en estos manuscritos, textos no identificados que nadie ha visto antes«.

Los desafíos son innumerables

Scheirer insiste en que persisten los desafíos. Su equipo está trabajando para mejorar la precisión de las transcripciones, especialmente en el caso de documentos dañados o incompletos, así como para explicar las ilustraciones u otros aspectos de una página que podrían ser confusos para la red.

Sin embargo, el equipo pudo ajustar el programa para transcribir textos etíopes, adaptándolo a un idioma con un conjunto de caracteres completamente diferente, un primer paso hacia el desarrollo de un programa con la capacidad de transcribir y traducir información para los usuarios.

«En el campo literario, podría ser realmente útil. Toda buena obra literaria está rodeada de una gran cantidad de documentos históricos, pero donde realmente será útil es en la investigación de archivos históricos«, precisa Müller. «Existe una gran necesidad de avanzar en las humanidades digitales. Cuando se habla de la Edad Media y los primeros tiempos modernos, si se quiere comprender los detalles y las consecuencias de los acontecimientos históricos, hay que examinar el material escrito, y estos textos son lo único que tenemos. El problema puede ser aún mayor fuera del mundo occidental. Piensa en lenguas que están desapareciendo en culturas amenazadas. Primero que nada debemos preservar estas obras, hacerlas accesibles y, en algún momento, incorporamos traducciones para hacerlas parte de procesos culturales que aún están en marcha, y estamos compitiendo contra el tiempo«.

Fuente: IEEE Transactions on Pattern Analysis and Machine Intelligence.

Alejandro Serrano
Cofundador de Fantasymundo, director de las secciones de Libros y Ciencia. Lector incansable de ficción y ensayo, escribo con afán divulgador sobre temáticas relacionadas con el entretenimiento y la cultura cercanas a mis intereses.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.