ArqueoTimes.es

El algoritmo Ithaca. DeepMind al servicio de la Arqueología

No es la primera vez que hablamos de machine learning en ArqueoTimes (Luengo, 2023), pero quizás sí la primera vez que nos centramos en un uso tan específico como es su aplicación en la epigrafía. Como ya dimos a entender en ese anterior artículo, y citando a Humby y Palmer (2006): 

«Data is the new oil. It’s valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc., to create a valuable entity that drives profitable activity; so must data be broken down, analyzed for it to have value» (Los datos son el nuevo petróleo. Son valiosos, pero si no se refinan, en realidad no se pueden usar. Tienen que convertirse en gasolina, plásticos, productos químicos, etc., para crear una entidad valiosa que impulse una actividad rentable; así también los datos deben descomponerse y analizarse para que tengan valor).

Figura 1. Esta inscripción (Inscriptiones Graecae, volumen 1, edición 3, documento 4, cara B (IG I3 4B)) registra un decreto relacionado con la Acrópolis de Atenas y data del 485/4 a.C. Fuente: Marsyas, Epigraphic Museum, WikiMedia Licencia: CC BY 2.5.

En el contexto de la epigrafía esta cita de Humby y Palmer cobra enorme relevancia. La epigrafía se encuentra constantemente con desafíos tales como la fragmentación o deterioro de las inscripciones y es aquí donde el algoritmo Ithaca elaborado en los laboratorios de Google DeepMind por un equipo liderado por Yannis Assael entra en juego, proporcionando una herramienta avanzada para restaurar y analizar inscripciones antiguas, incluso cuando estas están dañadas e incluso incompletas. Sin embargo es importante destacar que Ithaca no es el único ni el primer ejemplo de uso de machine learning en epigrafía o sobre textos antiguos: Kang et al. (2021) emplearon modelos de lenguaje neuronal y técnicas de traducción automática para restaurar y analizar los registros de la dinastía Joseon. Otros como Bamman y Burns (2021) desarrollaron Latin BERT, un modelo de lenguaje contextual específicamente entrenado para el latín, capaz de predecir texto faltante demostrando la amplia aplicabilidad de estas tecnologías en la preservación y estudio de textos históricos en diversos contextos culturales.

¿Pero qué es Ithaca? Descripción del algoritmo

Imaginemos que tenemos un puzzle en el que las piezas están dañadas, desgastadas o incluso faltan por completo. El trabajo de los epigrafistas en este contexto es como el de un restaurador de puzzles: tratan de encajar las piezas que quedan y reconstruir la imagen original basándose en pistas dadas por el contexto. El algoritmo Ithaca actúa como un complemento que, en lugar de intentar simplemente encajar piezas visibles, puede inferir la forma y el contenido de las piezas que faltan basándose en patrones y experiencias aprendidas de miles de puzzles similares (en este caso, inscripciones antiguas). 

El equipo subraya que Ithaca no está destinada a reemplazar al científico, sino a servir como una poderosa herramienta de apoyo. De hecho, el estudio enfatiza que mientras un historiador por sí solo alcanza una precisión del 25% y el algoritmo Ithaca por separado llega a un 62%, la combinación de ambos, historiador y algoritmo, logra un impresionante 72% de precisión.

Pero no podemos quedarnos en esos datos sin profundizar algo más porque, ¿qué quiere decir un 72% de precisión en este contexto, cómo funciona este algoritmo realmente y por qué está revolucionando la epigrafía?

Datos y Modelo del Algoritmo Ithaca

Para comprender cómo Ithaca alcanza su nivel de precisión, es crucial entender tanto los datos utilizados en el entrenamiento como la arquitectura del algoritmo. El trabajo, presentado a la comunidad científica el 9 de marzo de 2022 en la revista Nature (Assael et al., 2022), introdujo a Ithaca como una red neuronal profunda (deep neural network) diseñada para ayudar en la transcripción de fragmentos de texto hasta ahora ilegibles y en la identificación de la ubicación original y la fecha de datación de inscripciones antiguas, particularmente de la antigua Grecia. Para entrenar el modelo, los investigadores partieron de un corpus epigráfico compuesto por 178.551 inscripciones del Packard Humanities Institute (PHI), de las cuales 78.608 fueron seleccionadas para el entrenamiento, convirtiéndose en el dataset de texto epigráfico más grande manejado por machine learning hasta la fecha. Este conjunto de inscripciones están escritas en griego antiguo y han sido halladas a lo largo de todo el Mediterráneo antiguo, con dataciones entre el siglo VII a.C. y el siglo V d.C. 

Figura 2. La arquitectura de Ítaca procesando la frase ‘δήμο το αθηναίων’ (‘el pueblo de Atenas’).  Fuente. Licencia: Creative Commons Attribution 4.0.

El diseño del algoritmo está basado en una arquitectura de transformadores transformers (un transformador es una arquitectura de aprendizaje profundo desarrollada por investigadores de Google y basada en el mecanismo de atención según Vaswani et al., 2017). Este sistema se estructura en dos partes principales: un «body» de transformadores y tres «heads» específicas para cada tarea: restauración del texto, atribución geográfica, y atribución cronológica. Este enfoque permite al algoritmo considerar el contexto de forma amplia y las conexiones entre diferentes partes del texto, incluso si algunas partes están fragmentadas o dañadas. Para poder entender mejor estos conceptos utilizaremos la siguiente analogía: piensa en el body principal de Ithaca como una persona en una fiesta que escucha múltiples conversaciones a la vez. Esta persona puede enfocarse en la conversación más relevante mientras todavía capta fragmentos de otras conversaciones cercanas. Del mismo modo, el transformer de Ithaca se enfoca en ciertas partes del texto (palabras y caracteres) que son más relevantes para entender el contexto completo, mientras aún «escucha» el resto del texto que podría ser relevante para futuras interpretaciones. Este enfoque permite que el algoritmo considere el contexto amplio y las conexiones entre diferentes partes del texto, incluso si algunas partes están fragmentadas o dañadas.

Como entradas epigráficas, Ithaca utiliza representaciones combinadas de caracteres y palabras, abordando así la pérdida de partes del texto. Además, introduce un símbolo especial «[unk]» cuando existen  palabras dañadas o desconocidas. Las salidas del body se canalizan hacia las tres heads, consistiendo cada una en una red neuronal prealimentada poco profunda (shallow feedforward neural network —shallow FNN—) entrenada específicamente para su tarea. Por ejemplo, la head de restauración predice caracteres faltantes, la de atribución geográfica clasifica la inscripción entre 84 regiones, y la de atribución cronológica estima la fecha en intervalos de 10 años entre el 800 a.C. y el 800 d.C. El modelo también genera visualizaciones interpretativas, como mapa de prominencia (saliency maps) y listas clasificadas de predicciones, que facilitan la colaboración entre el modelo y los historiadores.

Con respecto a la idea del 72% de precisión, en el contexto del modelo Ithaca, esto significa que en el 72% de los casos, la predicción más alta del modelo es la correcta. Como ya indicamos líneas arriba, Ithaca no es el primer algoritmo en realizar estas tareas. Pythia, otro modelo de aprendizaje automático que fue desarrollado por un equipo igualmente liderado por Assael (2019), también ha abordado estas tareas anteriormente y es parte interna fundamental del nuevo algoritmo. Pero como era de esperar, Ithaca mejora el desempeño en todas las áreas en comparación con Pythia. Por ejemplo, para la restauración de texto (Restoration), Ithaca presenta una menor tasa de error de carácter (CER) con un 18.3% frente al 47.0% de Pythia. Igualmente, en la opción Top-1 Ithaca (de forma independiente) es muy superior, ostentando un 61.8% frente al 32.6% de Pythia.

Figura 3. Resultados generados por el algoritmo Ithaca. Fuente. Licencia: Creative Commons Attribution 4.0.

Seguramente con el tiempo podamos ir digitalizando y engrosando los corpus epigráficos aumentando el número de datos de entrenamiento lo que permita a la larga mejorar los modelos. Pero al respecto y para terminar, quizás sea adecuado que hagamos una reflexión fundamental. La precisión de estos modelos se mide con respecto a lo que hemos etiquetado previamente. Es decir, son los investigadores los que etiquetan el set de entrenamiento. Una vez el modelo está entrenado el algoritmo es capaz de continuar infiriendo dataciones por sí solo. Sin embargo, si los datos de entrenamiento fueran erróneos, todo el entrenamiento generaría un modelo erróneo, que sólo podría ofrecer respuestas equivocadas. En conclusión, y parafraseando las ideas de Einstein sobre la ciencia: «Una teoría puede caer con una nueva evidencia, pero un dato erróneo puede enraizarse profundamente en el tejido del conocimiento» (inspirado en «Mis ideas y visión del mundo», de Albert Einstein (2023)).

Bibliografía

Assael, Y., Sommerschield, T., Shillingford, B., Bordbar, M., Pavlopoulos, J., Chatzipanagiotou, M., Androutsopoulos, I., Prag, J., & de Freitas, N. (2022). Restoring and attributing ancient texts using deep neural networks. Nature, 603(7900), 280-283. https://doi.org/10.1038/s41586-022-04448-z 

Assael, Y., Sommerschield, T., & Prag, J. (2019). Restoring ancient text using deep learning: A case study on Greek epigraphy. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (pp. 6368-6375).Association for Computational Linguistics. https://doi.org/10.18653/v1/D19-1668

Bamman, D., & Burns, P. J. (2021). Latin BERT: A contextual language model for classical philology. Manuscript in preparation. https://doi.org/10.48550/arXiv.2009.10053

Bamman, D. (2021). Latin BERT [Repositorio GitHub]. GitHub. https://github.com/dbamman/latin-bert (accedido el 5 de septiembre de 2024).

Einstein, A. (2023). Mis ideas y visión del mundo (C. Fosch, Ilustr.; J. M. Álvarez Flórez & A. Goldar, Trads.). Alma.

Humby, C., & Palmer, M. (3 de noviembre de 2006). Data is the New Oil. https://ana.blogs.com/maestros/2006/11/data_is_the_new.html (accedido el 25 de agosto de 2024).

Kang, K., et al. (2021). Restoring and mining the records of the Joseon dynasty via neural language modeling and machine translation. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL) (pp. 4031–4042). Association for Computational Linguistics. https://doi.org/10.18653/v1/2021.naacl-main.320 

Luengo Gutiérrez, F. J. (2023). Inteligencia artificial (IA) en la arqueología. Arqueotimes. https://arqueotimes.es/inteligencia-artificial-ia-en-la-arqueologia/ 

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. En Proceedings of the 31st International Conference on Neural Information Processing Systems (pp. 6000–6010). Curran Associates Inc.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *