martes, 17 de marzo de 2020

Arqueología: El aprendizaje automático ayuda a traducir la Antigüedad

Cómo la IA podría ayudar a traducir el lenguaje escrito de las civilizaciones antiguas

University of Chicago News

Por Rob Mitchum


La antigua ciudad de Persépolis en el Irán actual


El OI comenzó expediciones arqueológicas a la antigua ciudad de Persépolis en la década de 1930, donde descubrieron decenas de miles de tabletas de arcilla que contenían cuneiformes. Una colaboración entre la OI y el Departamento de Ciencias de la Computación utilizando un programa de aprendizaje automático podría permitir una traducción más rápida de estas tabletas.
Foto cortesía de la OI.

OI, los especialistas en informática colaboran en el programa para leer tabletas cuneiformes


Hace veinticinco siglos, el "papeleo" del Imperio aqueménida de Persia se registró en tabletas de arcilla, decenas de miles de las cuales fueron descubiertas en 1933 en el Irán moderno por arqueólogos del Instituto Oriental de la Universidad de Chicago. Durante décadas, los investigadores estudiaron y tradujeron minuciosamente estos documentos antiguos a mano, pero este proceso de descifrado manual es muy difícil, lento y propenso a errores.

Desde la década de 1990, los científicos han reclutado computadoras para ayudar, con un éxito limitado, debido a la naturaleza tridimensional de las tabletas y la complejidad de los caracteres cuneiformes. Pero un avance tecnológico en la Universidad de Chicago finalmente puede hacer posible la transcripción automatizada de estas tabletas, que revelan una rica información sobre la historia, la sociedad y el idioma aqueménidas, liberando a los arqueólogos para un análisis de nivel superior.

Esa es la motivación detrás de DeepScribe, una colaboración entre investigadores de la OI y el Departamento de Informática de UChicago. Con un conjunto de capacitación de más de 6,000 imágenes anotadas del Archivo de Fortificación de Persépolis, el proyecto financiado por el Centro de Datos e Informática construirá un modelo que puede "leer" tabletas aún no analizadas en la colección, y potencialmente una herramienta que los arqueólogos puede adaptarse a otros estudios de escritura antigua.

"Si pudiéramos idear una herramienta que sea flexible y extensible, que pueda extenderse a diferentes guiones y períodos de tiempo, eso realmente cambiaría el campo", dijo Susanne Paulus, profesora asociada de Asiriología.




En la foto se muestran puntos calientes que delinean signos cuneiformes en una tableta Elamite del Archivo de Fortificación de Persépolis.

"Es un buen problema de aprendizaje automático"

La colaboración comenzó cuando Paulus, Sandra Schloen y Miller Prosser de la OI conocieron a Asst. Prof. Sanjay Krishnan del Departamento de Ciencias de la Computación en un evento del Colegio Neubauer sobre humanidades digitales. Schloen y Prosser supervisan OCHER, una plataforma de gestión de bases de datos respaldada por la OI para capturar y organizar datos de excavaciones arqueológicas y otras formas de investigación. Krishnan aplica técnicas de aprendizaje profundo y IA al análisis de datos, incluidos videos y otros tipos de datos complejos. La superposición fue inmediatamente evidente para ambos lados.

“Desde la perspectiva de la visión por computadora, es realmente interesante porque estos son los mismos desafíos que enfrentamos. La visión por computadora en los últimos cinco años ha mejorado significativamente; Hace diez años, esto habría sido ondulado, no habríamos llegado tan lejos ", dijo Krishnan. "Es un buen problema de aprendizaje automático, porque la precisión es objetiva aquí, tenemos un conjunto de entrenamiento etiquetado y entendemos el guión bastante bien y eso nos ayuda. No es un problema completamente desconocido ".

Ese conjunto de entrenamiento es gracias a más de 80 años de estudio minucioso realizado por investigadores de OI y UChicago y un reciente impulso para digitalizar imágenes de alta resolución de la colección de tabletas, actualmente más de 60 terabytes y aún en crecimiento, antes de su regreso a Irán. Usando esta colección, los investigadores crearon un diccionario del lenguaje Elamite inscrito en las tabletas, y los estudiantes que aprendieron a descifrar cuneiformes construyeron una base de datos de más de 100,000 "puntos críticos" o identificaron signos individuales.

Con recursos del Centro de Computación de Investigación de UChicago, Krishnan utilizó este conjunto de datos anotados para entrenar un modelo de aprendizaje automático, similar a los utilizados en otros proyectos de visión por computadora. Cuando se probó en tabletas no incluidas en el conjunto de entrenamiento, el modelo pudo descifrar con éxito los signos cuneiformes con aproximadamente un 80% de precisión. La investigación en curso intentará aumentar ese número mientras examina qué representa el 20% restante.

"Si pudiéramos idear una herramienta que sea flexible y extensible, que pueda extenderse a diferentes scripts y períodos de tiempo, eso realmente cambiaría el campo".

- Asoc. Prof. Susanne Paulus

Mucho trabajo pesado digital


Pero incluso el 80% de precisión puede proporcionar ayuda inmediata para los esfuerzos de transcripción. Muchas de las tabletas describen transacciones comerciales básicas, similares a "una caja de recibos de Walmart", dijo Paulus. Y un sistema que no puede decidirse puede ser útil.

"Si la computadora pudiera traducir o identificar las partes altamente repetitivas y dejar que un experto complete los nombres de lugares difíciles o verbos o cosas que necesitan alguna interpretación, eso hace mucho trabajo", dijo Paulus, la tableta Curador de colecciones en la OI. “Y si la computadora no puede tomar una decisión definitiva, si podría devolvernos las probabilidades o los cuatro primeros puestos, entonces un experto tiene un lugar para comenzar. Eso sería sorprendente."

Aún más ambicioso, el equipo imagina DeepScribe como una herramienta de descifrado de propósito general que pueden compartir con otros arqueólogos. Quizás el modelo se pueda volver a entrenar para idiomas cuneiformes que no sean Elamite, o pueda hacer sugerencias informadas sobre qué texto se escribió en piezas faltantes de tabletas incompletas. Un modelo de aprendizaje automático también podría ayudar a determinar el origen de las tabletas y otros artefactos de procedencia desconocida, una tarea que actualmente se aborda mediante pruebas químicas.

Proyectos similares financiados por CDAC están utilizando enfoques de visión por computadora para aplicaciones, como estudiar la biodiversidad en bivalvos marinos y separar el estilo del contenido en el trabajo artístico. La colaboración también espera inspirar futuras asociaciones entre la OI y el Departamento de Ciencias de la Computación, ya que la arqueología digital se cruza cada vez más con enfoques computacionales avanzados.

"Creo que ayudó a que algo que hubiera terminado en una conversación de la cena se convirtiera en una colaboración real", dijo Krishnan. "Nos hizo hacer más que hablar".

No hay comentarios:

Publicar un comentario

Por favor, haga su comentario || Please, make a comment...