Лингвистические задачи
16-17 декабря в ВШЭ НН прошел междисциплинарный хакатон "Почтовое Digital: лингвистика и технологии". Основой для работы стал уникальный речевой материал – корпус почтовых открыток "Пишу тебе". В корпусе собрано более 25 тысяч оцифрованных и расшифрованных открыток, отправленных с 1881 по 2023 год из разных городов России и мира.
Одним из направлений работы, предложенных участникам хакатона, было создание лингвистичсеких задач на материале корпуса почтовых открыток "Пишу тебе".
Предлагаем познакомиться с результатом работы команды-победителя и решить лингвистические задачи!
Задача 1. Заполните пропуск в тексте открытки, восстановив слово по контексту
Для работы предлагаются 2 открытки, в которых пропущено одно и то же слово. Пропущенное слово может употребляться в тексте в различных падежных формах.
Открытка № 1: "Христос Воскрес Яков Васильевич и дорогая сестрица Майя Захарьевна праздравляем вас с светлы Христовым воскресением и желаем встретить и проводить весело и радосно ещё крепко целуют вас Лена и Надя и желаем всего хорошаго Маша писмо ваше с […..] получила в новый год за что благодарю а миня пажалуйста извини что я так долго что я так долго не писала у вас тоже дорогим как и здеся Маша так идёт скучна время прямо что и жить надоело все знакомы и выти стало некуда в праздник а она ждать дома не любит" (1914 г., г. Златоуст)
Открытка № 2: "…мой брат все таки получил и писал что он послал А.А. мое письмо. Но я ответа от него не получил. Чем объяснить его молчание никак не пойму. Простите, что я шлю Вам такую открытку, которая напоминает много трагического. Эта […..] много родила у меня мыслей, которые записаны в списках; их я когда-нибудь пришлю Вам. Живу я постарому, только одно что раздобыл учителя языка "эсперанто" и каждый день зубрю его, а так же один товарищ передал бумагу и карандаши, так что рисую и картину." (1909 г., г. Вологда — г. Санкт-Петербург)
Подсказка № 1
Подсказка № 2
Подсказка № 3
Ответ на задачу № 1
Задача №2. Вычислите слово, исходя из его портрета
Портрет слова составлен с помощью корпусных и компьютерных инструментов и включает в себя данные о сочетаемости слова, его системных связях, семантически близких словах.
Загаданное слово - прилагательное. Облако из слов, которые загаднанное прилагательное определяет:
Облако из семантически близких слов:
Общая частотность во всех русскоязычных открытках: 305 раз (0.078% от размера корпуса)
Подкорпус "московских" открыток: встречается 12 раз (0.081% от размера корпуса)
Подкорпус "нижегородских" открыток: встречается 2 раза (0.1% от размера корпуса)
Ответ на задачу № 2
Задача №3. Определите, какой текст открытки написан человеком, а какой сгенерирован нейросетью
Открытка № 1:
"Эта открытка немного опоздала (почти на месяц), только сегодня она поступила к нам. Но если она опоздала к Новому году, то разреши через эту открытку поздравить тебя с днем рождения.
Пока она дойдет до Тюмени и будет день твоего рождения.
Крепко целует тебя
Ленька."
Открытка № 2:
"Дорогие мама и папа,
Я знаю, что сейчас трудно, но я верю, что вы сильны.
Я скучаю по вам, но знаю, что вы делаете все возможное, чтобы защитить нас.
Будьте осторожны и вернитесь как можно скорее. Я вас люблю.
С любовью, Шура."
Ответ на задачу № 3
Бонус к задаче № 3
Определите, какое из представленных ниже решений задачи № 3 настоящее и написано реальным человеком, а какое сгенерировано нейросетью.
Ответ к бонусному заданию
Итак, формат хакатона "Почтовое Digital: лингвистика и технологии" позволил участникам увидеть интересные языковые закономерности, изучить новые корпусные инструменты и проявить творческий подход, создав готовый продукт - лингвистические задачи.
Авторы заданий: Филиппова Кристина, Махоткина Анастасия, Сенникова Ольга