Itinai.com a website with a catalog of works by branding spec dd70b183 f9d7 4272 8f0f 5f2aecb9f42e 0

Aeneas: ИИ для восстановления и контекстуализации древних латинских надписей

Itinai.com a website with a catalog of works by branding spec dd70b183 f9d7 4272 8f0f 5f2aecb9f42e 0

Google DeepMind представляет Aeneas: ИИ для контекстуализации и восстановления древних латинских надписей

Эпиграфия — это удивительная наука, исследующая тексты, выгравированные на прочных материалах, таких как камень и металл. Она помогает нам постичь мир Древнего Рима, но сталкивается с множеством проблем: фрагментарные надписи, неопределенные даты, разные географические источники и растущее множество латинских надписей, превышающее 176,000, с добавлением примерно 1,500 новых ежегодно. Как же современные технологии могут помочь в этом?

Проблемы латинской эпиграфии

Латинские надписи охватывают более двух тысячелетий, начиная с VII века до нашей эры и заканчивая VIII веком нашей эры. Они встречаются в пределах обширной Римской империи, состоящей более чем из шестидесяти провинций. Каждая надпись — это маленькая история, будь то императорские декреты, юридические документы или надгробия. Однако многие из них повреждены, что усложняет их датировку и определение происхождения.

Aeneas: Решение эпиграфических проблем

Для решения этих задач Google DeepMind разработал Aeneas — трансформерную генеративную нейронную сеть, способную восстанавливать поврежденные текстовые сегменты, определять хронологию, географическую принадлежность и контекст, извлекая релевантные эпиграфические параллели.

Набор данных латинской эпиграфии (LED)

Aeneas обучен на Наборе данных латинской эпиграфии (LED), который включает 176,861 латинских надписей из трех основных баз данных. Этот набор охватывает около 16 миллионов символов, которые представляют надписи за семь веков до нашей эры и восемь веков нашей эры, из которых около 5% имеют сопутствующие изображения в градациях серого.

Архитектура модели и входные данные

В основе Aeneas лежит глубокий, узкий трансформер-декодер, адаптированный для эффективной локальной и контекстуальной обработки символов. Модель включает в себя несколько специализированных задач, таких как:

  • Восстановление: Предсказание недостающих символов, поддержка произвольной длины незнакомых пробелов.
  • Географическая атрибуция: Классификация надписей среди 62 провинций.
  • Хронологическая атрибуция: Оценка датировки текста по десятилетиям.

Эффективность и оценка

Aeneas продемонстрировал значительные улучшения в своем тестировании на наборе данных LED и в рамках совместного исследования с 23 эпиграфистами. Результаты впечатляют:

  • Восстановление: Уровень ошибок символов (CER) снизился до примерно 21% с поддержкой Aeneas, по сравнению с 39% для специалистов без помощи ИИ.
  • Географическая атрибуция: Достигнута точность около 72% в классификации провинций.
  • Хронологическая атрибуция: Средняя ошибка в оценке даты составляет около 13 лет.
  • Контекстуальные параллели: Извлеченные параллели принимаются как полезные отправные точки для исторических исследований в примерно 90% случаев.

Интеграция в исследовательские процессы и образование

Aeneas функционирует как кооперативный инструмент, улучшая рабочие процессы историков, ускоряя поиск эпиграфических параллелей и уточняя атрибуцию. Инструмент и набор данных открыты для доступа через платформу Predicting the Past под разрешительными лицензиями, что способствует междисциплинарной цифровой грамотности.

Часто задаваемые вопросы

Что такое Aeneas и какие задачи он выполняет?

Aeneas — это генеративная мультимодальная нейронная сеть, разработанная Google DeepMind для латинской эпиграфии. Она помогает историкам восстанавливать поврежденные или отсутствующие тексты в древних латинских надписях, оценивать их дату, определять географическое происхождение и извлекать исторически важные параллели.

Как Aeneas обрабатывает неполные или поврежденные надписи?

Aeneas может предсказывать недостающие текстовые сегменты, даже если длина пробела неизвестна. Он генерирует несколько правдоподобных гипотез восстановления, ранжируя их по вероятности, что облегчает оценку экспертами и дальнейшие исследования.

Как Aeneas интегрируется в рабочие процессы историков?

Aeneas предоставляет историкам ранжированные списки эпиграфических параллелей и предсказательных гипотез для восстановления, датировки и атрибуции. Эти результаты повышают уверенность и точность историков, сокращая время на исследования.

Подробности можно найти на сайте проекта и в блоге Google DeepMind. Все заслуги за это исследование принадлежат авторам проекта. Подпишитесь на нашу рассылку об ИИ, чтобы быть в курсе новостей!

Новости в сфере искусственного интеллекта