“Пи пополам”: напев, набор слогов или математическая формула?
В нижегородском кампусе НИУ ВШЭ прошла студенческая конференция, посвященная исследованиям в области корпусных технологий и компьютерных наук в гуманитарном знании «КонКорт 2023». Эксперты и студенты со всей страны обсудили последние достижения корпусной лингвистики, в том числе, активно развивающейся области Digital Humanities.
Формальные исследования гуманитарных объектов имеют богатую историю в XX веке – это и стиховедение, и исторические базы данных, и стилометрия. Но за последние годы, с появлением новых возможностей – доступностью электронных текстов, развитием методов их автоматического анализа, новыми мощностями хранения и обработки, новыми инструментами работы с данными – это направление будто родилось заново.
Digital Humanities – область на стыке компьютерных и гуманитарных наук, где главное – это humanities, то есть классические гуманитарные науки – филология, история, философия, культурология, но вот изучать их предлагается по-новому – с учетом того факта, что мир переходит в цифру.
Конференция КонКорт проводится в Вышке с 2013 года, и за эти десять лет область Digital Humanities сделала большой рывок вперёд: от простого представления текстов в интернете специалисты перешли к полноценным системам, позволяющим проследить сюжетные линии произведения, семантические поля, релевантные для анализа произведения, синтаксические особенности текста. «Цифровые гуманитарии» строят связи между персонажами «Войны и мира», анализируют развитие культурной дипломатии в начале ХХ века по почтовым открыткам, строят карты лагерей ГУЛАГ.
НИУ ВШЭ – Нижний Новгород традиционно является площадкой для проведения конференции КонКорт, и в этом году кроме студентов московского и нижегородского кампусов Вышки участие в ней приняли студенты МГУ, Воронежского государственного университета, Института востоковедения РАН и других вузов.
Основная цель конференции – привлечение молодых исследователей, и организаторы отмечают беспрецедентно большое количество студенческих докладов в этом году. Каждый доклад, представленный на конференции, активно обсуждался, шла очень интенсивная работа, было заметно, что за прошедший с предыдущего КонКорта год у специалистов накопилось много интересных разработок, которыми им хотелось поделиться с коллегами.
Татьяна Романова, доктор филологических наук, профессор, руководитель департамента фундаментальной и прикладной лингвистики нижегородского кампуса НИУ ВШЭ
Важно, что ребята, связавшие свою жизнь с компьютерной лингвистикой, получают на этой конференции возможность пообщаться со сверстниками из других вузов страны и обменяться исследовательским опытом. От нашей образовательной программы бакалавриата «Фундаментальная и прикладная лингвистика» в качестве докладчиков в конференции принимают участие 11 студентов, остальные участвуют в качестве слушателей».
«Эта конференция – прекрасный способ наладить взаимодействие между студентами, занимающимися исследованиями в такой специфической области, как Digital Humanities, – соглашается с Татьяной Владимировной Вероника Зыкова студентка 4 курса программы бакалавриата «Фундаментальная и компьютерная лингвистика» (НИУ ВШЭ – Москва). – В этом году КонКорт на целый день длиннее, чем в прошлом, соответственно, и докладов было значительно больше, в результате получилось такое своеобразное погружение».
Вероника Зыкова
Из массы замечательных докладов я лично бы выделила доклад Данилы Федорова про корпус устных математических текстов на русском языке «Математикон». Это целый большой проект, за которым очень интересно следить: корпус, где собраны части из лекций по математике с соответствующей корпусу разметкой. Ведь для иностранца, изучающего русский язык, “пи пополам”, к примеру, звучит как непонятный набор слогов, как какой-то напев. Здорово, что у нас развиваются такие специфические корпуса – это очень любопытно.
Ну и чисто субъективно меня заинтересовал доклад нижегородских коллег Карины Закировой и Максима Шестакова об особенностях окказиональных антропонимов в произведениях жанра фэнтези, поскольку их исследование близко к моему. Вообще, имена – очень специфическая область, особенно имятворчество. В классической литературе имена были стандартными, существующими на момент времени, и лишь сравнительно недавно, когда появились фантастика и фэнтези, возникла необходимость придумывать соответствующие имена. И это очень интересно, например, насколько Толкин повлиял на всех нас – теперь имена всех эльфов созвучны героям его произведений.
Мой доклад был про способ выявления анафорических имён собственных в художественных текстах. В нашей работе мы попытались автоматическими способами объединять анафорические имена собственные, то есть имена, которые обозначают на самом деле одного героя. Например, в «Гарри Поттере» есть персонаж Ремус Люпин. Его, очевидно, называют и по имени, и по фамилии, а ещё у него есть кличка “Лунатик” и сокращение имени – Рем. А ещё у него есть два варианта написания: “Римус” и “Ремус” – фандом не определился, как будет правильно.
Разработанный нами алгоритм позволил это всё собрать в одну группу. Это представляется важным, когда исследователю нужно автоматически выявить связи между героями художественного произведения, для того, чтобы, например, описать их социальное взаимодействие. Ведь интересно понять, как именно этот герой взаимодействует с остальными, а не увидеть пять его личностей.
«Важность развития IT-технологий, в том числе инструментов лингвистических исследований, для российского общества в современной политической и экономической ситуации трудно переоценить, – подчеркнула Татьяна Романова. – Корпусная и компьютерная лингвистика решает разнообразный спектр задач: от создания электронных словарей и учебников, автоматической обработки и анализа массивов текстов разного формата до моделирования речевых функций мозга».
Постоянно создаются новые корпусные ресурсы, новые программные средства для анализа языка, и конференция «Корпусные технологии и компьютерные науки в гуманитарном знании» – один из очень важных инструментов навигации в быстро меняющемся научном ландшафте для специалистов этой области знания.
Романова Татьяна Владимировна
Департамент фундаментальной и прикладной лингвистики: Руководитель департамента