Сервис «Поиск по архивам» открывает всем желающим доступ к более чем 2,5 миллионам страниц документов.
«Яндекс» обучил нейросети расшифровывать архивные документы с дореволюционной орфографией. С историческими документами с текстовой расшифровкой можно ознакомиться уже сейчас, доступ к соответствующему сервису открыт. Об этом в среду сообщает
Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и, как уточняется в сообщении компании, «понимает особую структуру архивных документов». Разработчики обучали нейросеть на материалах главархива Москвы, это сотни тысяч рукописных строк из реальных текстов XVIII- XIX веков, а также на десятках миллионов сгенерированных примеров. Разработанная технология может с легкостью разобрать текст, который неподготовленный человек вряд ли сможет понять.
Специалисты «Яндекса» отмечают, что для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени, а новый сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач.
Помимо материалов главархива Москвы, база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться. Уже сейчас сервис «Поиск по архивам» открывает всем желающим доступ к более чем 2,5 миллионам страниц документов.
Материалы можно найти по каталогу или через строку поиска, также есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.
«Яндекс» запустил сервис «Поиск по архивам», в котором собраны более 2,5 млн страниц исторических рукописных документов с текстовой расшифровкой. Об этом сообщает
Рукописные дореволюционные документы расшифровывает нейросеть. Отмечается, что специалисты обучали ее на массиве данных из сотен тысяч рукописных строк реальных текстов
С помощью технологии пользователи могут найти в базе сервиса нужный документ с упоминанием фамилии, населенного пункта и др. Поиск текстов доступен по каталогу или через строку поиска, также есть фильтры по годам, архивам, фондам и описям. Расшифрованный нейросетью документ отображается справа от оригинала, при наведении курсора на нужный фрагмент, он сразу подсветится на цифровой копии текста, пояснили в
Помимо документов Главархива Москвы, в базе также можно найти тексты из архивов Оренбургской и Новгородской областей. Разработчики обещают, что в будущем в сервисе станет еще больше доступных документов.
В ноябре 2022 г. «Яндекс» также обучил нейросеть находить места по сложным запросам в «Яндекс.Картах». При обработке запроса она анализирует не только описание и ключевые слова, но и другие параметры — фотографии, отзывы и меню.