• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическое восстановление слов в текстах открыток

Марина Мокина, участница НУГ, рассказывает о разработке: работая с корпусом "Пишу тебе" студенты ФиПЛ успешно дообучили большую языковую модель (ruRoberta-large) для автоматического восстановления пропущенных слов в современных открытках, которые часто бывает сложно разобрать из-за почерка автора или некоторых повреждений.

Автоматическое восстановление слов в текстах открыток

Изображение создано с помощью нейросети Kandinsky

Введение: в чём проблема?

Почтовые открытки из корпуса «Пишу тебе» — это уникальный материал для изучения живого русского языка. Но часто ценным лингвистическим данным грозит потеря — текст бывает трудно прочитать из-за плохого почерка или повреждений открытки. Пропуски, которые архивисты помечают как [нрзб] (неразборчиво), усложняют анализ и делают тексты менее ценными для исследований. Задачей было найти способ автоматически восстанавливать эти пропущенные слова, чтобы повысить качество и полноту данных в корпусе.

Эволюция методов: от простых алгоритмов к сложным моделям

История автоматического предсказания слов прошла несколько этапов:

  1. Статистические методы (n-граммы): простые и интерпретируемые, но неспособные учитывать широкий контекст и редкие слова.
  2. Векторные представления слов (Word2Vec, GloVe): смогли отразить семантическую близость слов, но всё ещё работали с ограниченным контекстом окрестности слова.
  3. Нейросетевые языковые модели (RNN, LSTM, GRU): научились учитывать более длинные последовательности, но были сложны в обучении.
  4. Архитектура Transformer и большие языковые модели (LLM):  модели на основе трансформеров (как наша ruRoberta-large) анализируют весь контекст предложения одновременно, что позволяет достигать высокой точности в понимании смысла и предсказании слов.

Выбор инструмента: почему именно ruRoberta-large?

Для задачи была выбрана одна из самых мощных моделей для русского языка — ruRoberta-large. Вот почему:

  • Обучена на современных данных: модель предобучена на 200+ ГБ текстов из интернета, что делает её идеальной для работы с языком современной переписки.

  • Специализация: изначально обучена под задачу предсказания маскированных слов (fill-mask).

  • Доказанное превосходство: показывает лучшие результаты для русского языка по сравнению с аналогами (RuBERT, mBERT).

Данные и подготовка: на чём обучена модель?

Чтобы научить модель именно языку почтовых открыток, мы создали специальный набор данных:

  1. Отбор: взяли только постсоветские открытки на русском языке.
  2. Очистка: убрали записи без текста или уже содержащие пометки [нрзб].
  3. Результат: получили корпус из 1 340 текстов для дообучения модели.

Мы не создавали модель с нуля, а дообучили ruRoberta-large на специализированном корпусе. Это позволило ей понять не только общий язык, но и особенности дискурса почтовых открыток.

Результаты: точность 70% и понимание контекста

Дообученная модель показала хороший результат: средняя точность предсказания пропущенных слов достигла 69.6%.  То есть модель не просто угадывает слова, а действительно понимает грамматику и контекст современной почтовой переписки.

Примеры восстановления пропущенных слов в реальных текстах

Пример 1.

Исходный текст: Дорогая Нина! Поздравляю тебя со всеми майскими праздниками! Особенно с Днем Победы. Счастья тебе и мирного неба! Крепкого здоровья и много радости всему твоему семейству! Давно от тебя [нрзб] Пиши Таня.


В данном случае, скорее всего, пропущено сочетание не слышала или не слышно.

Модель предложила вариант слышала (с вероятностью 0,043). Хотя частица не осталась не предсказанной, модель верно уловила семантику ожидания ответа. Это видно по другим ее догадкам: жду (0,2132), ждала (0,0585).

Пример 2.

  • Исходный текст: Нина Алексеевна, Саня, Инна и маленький мужичок! Поздравляем с Рождеством и с Новым годом, Желаем всех благ, закончить институт и хорошо устроиться, здоровья, хорошего настроения Пусть бури жизни [нрзб] об вас и будет мило и удобно С уважением <подпись> Костя.

  • Вероятно, пропущено слово обойдут, отойдут или отлетают

  • Модель предложила вариант пройдут (с вероятностью 0,2097). Данный лексический вариант вписывается в смысл пожелания.  

Вывод

Примеры показали, что трансформерные модели, в частности RuRoberta-large, эффективно справляются с восстановлением пропущенных слов в реальных контекстах открыток. Вероятно, дальнейшее улучшение качества предсказаний потребует расширения корпуса данных и дополнительного подбора гиперпараметров.

О проекте

Данное исследование было выполнено в рамках курсов «Интеллектуальный анализ данных и основы машинного обучения» и «Автоматическая обработка естественного языка» программы «Фундаментальная и прикладная лингвистика». Над проектом работали: Крамкова Мария, Мокина Марина (участница НУГ), Хамидуллин Дамир.

 

Автор текста:

Мокина Марина, участница НУГ, студентка программы "Фундаментальная и прикладная лингвистика"