1. Перейти к содержанию
  2. Перейти к главному меню
  3. К другим проектам DW

Главный архив ФРГ открыли для искусственного интеллекта

Элизабет Грениэр | Елена Дожина
16 августа 2024 г.

В архивах Германии хранится множество рукописных документов колониального периода, которые трудно расшифровать. Искусственный интеллект научился читать старинные шрифты.

https://p.dw.com/p/4jWYX
Открытка 1903 года с изображением деревни в одной из колоний Германской империи на территории сегодняшней Республики Камерун
Открытка 1903 года с изображением деревни в одной из колоний Германской империи на территории сегодняшней Республики КамерунФото: akg-images/picture alliance

Тот, кто изучает немецкие архивы довоенного периода, прежде всего сталкивается с тем, что немецкая письменность существенно изменилась с течением времени. Хотя лексика и грамматика остались схожими, для расшифровки старых документов потребуется особый навык - умение читать рукописи, написанные шрифтом, который полностью исчез из обихода.

Одним из самых популярных шрифтов был немецкий готический курсив, известный как куррент и возникший в эпоху Средневековья. Существовало несколько его вариантов, но с начала ХХ века в качестве стандартного был принят шрифт Зюттерлина. Он был разработан художником-графиком Людвигом Зюттерлином (Ludwig Sutterlin) в 1911 году и изучался в немецких школах с 1915 по 1941 год, до тех пор, пока не был запрещен нацистами, поскольку в нем якобы содержались "еврейские буквы". 

Хотя немцы, выросшие вместе с Зюттерлином, использовали этот шрифт и в послевоенный период, их дети и внуки, как правило, не могут читать письма, написанные их предками. Трудности с расшифровкой документов испытывают и историки. Чтобы облегчить работу немецких исследователей, Федеральный архив Германииразработал специальную программу на основе искусственного интеллекта, которая способна расшифровывать тексты, написанные или напечатанные различными шрифтами. Чтобы обучить искусственный интеллект, используются документы периода немецкого колониализма, написанные готическим курсивом.

Расшифровка после дигитализации документов

В Федеральном архиве хранится около 10 тысяч документов бывшего Имперского управления по делам колоний, центрального органа колониальной политики Германской империи. "Эти документы были выбраны для обучения искусственного интеллекта потому, что в них особенно высока доля рукописей", - сообщил DW пресс-секретарь архива Эльмар Крамер (Elmar Kramer).

Есть еще одна причина, почему эти документы интересны для нового пилотного проекта. Они уже полностью оцифрованы, и у них истек срок авторских прав, поясняет руководитель проекта Ингер Банзе (Inger Banse).

Открытка 1903 года с изображением рабочих в Камеруне, прокладывающих железнодорожные пути
Большинство немцев не сможет прочитать шрифт Kurrent на этой открытке 1903 года с изображением рабочих в КамерунеФото: akg-images/picture alliance

Но самое главное, что расшифрованные документы имеют большую историческую ценность и очень важны в процессе переосмысления колониального прошлого Германии - теме, ставшей в последние годы очень важной в ФРГ. Слишком долго преступления, совершенные в эпоху немецкого колониализма, не получали должной оценки, отметила в одном из своих выступлений государственный министр по вопросам культуры и СМИ Клаудия Рот (Claudia Roth), приветствуя намерение Федерального архива использовать специально разработанные технологии, позволяющие "расширить знания об этой мрачной главе немецкой истории". Госминистр уверена, что таким образом может быть внесен важный вклад в процесс переосмысления колониального прошлого.

Первый геноцид XX века

Колониальная политика Германской империи берет свое начало с конца XIX века. Она была направлена в основном на захват территорий и основание колоний в Африке, Южных морях и Китае. Хотя политика германского колониализма осуществлялась сравнительно недолго - с 1884 года до окончания Первой мировой войны, то есть около 30 лет, - Германия стала третьей по величине колониальной империей после Великобритании и Франции.

Одна из самых мрачных страниц колониального правления, документы о которой хранятся в фондах Федерального архива, - подавление Сокехского восстания в 1910-1911 годах. Оно было поднято жителями Сокехса, острова в составе архипелага Восточных Каролинских островов, расположенного на территории тогдашней немецкой Новой Гвинеи, против колониальных властей. Чтобы выследить повстанцев и изгнать племя с острова, германские колониальные чиновники применили тактику выжженной земли.

Еще одной темной страницей колониализма является казнь короля Рудольфа Дуалы Манга Белла и его секретаря Адольфа Нгосо Дина в 1914 году, которые мирно сопротивлялись мерам немецкой колониальной администрации по экспроприации и насильственному переселению населения Дуалы в прибрежном районе и на юго-западе Камеруна.

Особо жестоким преступлением колониальных войск кайзеровской Германии стало организованное уничтожение народов гереро и нама в 1904-1908 годах на территории современной Намибии. После вспыхнувшего восстания немецкие солдаты убили около 75 тысяч человек из этих двух племен, включая женщин и детей. Историки называют это событие первым геноцидом ХХ века. В 2021 году Германия официально признала геноцидом истребление своими колониальными войсками племен гереро и нама и принесла извинения.

Современные технологии на службе истории

В том же году в Федеральном архиве начались разработки программ на основе искусственного интеллекта с целью сделать документы колониальной эпохи более доступными. "Вот почему искусственный интеллект является для нас важной темой уже несколько лет. И в данном случае можно сказать, что мы объединяем одну из наших старейших коллекций с одной из новейших технологий, если хотите: искусственный интеллект встречается с колониализмом", - объясняет Эльмар Крамер стремление к новаторским разработкам архива в этой области.

Пример документа, написанного шрифтом Зюттерлин и расшифрованного с помощью искусственного интеллекта, разработанного Федеральным архивом
Пример документа, написанного шрифтом Зюттерлин и расшифрованного с помощью искусственного интеллектаФото: BArch/R 1001/5573/Image165/Bundesarchiv


Следует учитывать, что искусственный интеллект должен уметь расшифровывать не только шрифт Зюттерлина, но и другие, порой "довольно небрежные, неряшливые письмена", подчеркивает Крамер. А Ингер Банзе добавляет. "Здесь много разных почерков. У нас также есть рукописные и печатные материалы. Есть много чего перечеркнутого, но есть и очень опрятные страницы".

Поэтому документы были разделены на три разные категории в зависимости от сложности материала. "Мы посмотрели, как модель ведет себя в этих разных категориях", - рассказала Ингер Банзе. Исследователи обучали программу искусственного интеллекта вручную, проверяя результаты транскрипции и улучшая их построчно - всего около 170 страниц. Банзе говорит, что теперь они достигли уровня, когда искусственный интеллект обеспечивает приемлемую точность при расшифровке даже самого сложного материала.

Дальнейшее совершенствование транскрипции потребовало бы неоправданно большой затраты времени. "Поэтому в какой-то момент нам пришлось подвести черту", - объясняет она. Вместо этого была разработана менее строгая поисковая система, позволяющая получить более широкий диапазон результатов. Программа искусственного интеллекта Федерального архива изначально была обучена только расшифровке шрифта куррент, но в будущем она откроет целый ряд новых возможностей для других немецкоязычных архивов. Пока это только пилотный проект, разработанный специально для коллекции документов колониального периода, хранящихся в Федеральном архиве. Его можно опробовать в исследовательском зале архива в Берлине, а вскоре он станет доступен и в интернете.

Пропустить раздел Еще по теме

Еще по теме

Показать еще