«Путь в нейролингвистику начался с любви к языкам»
Капитолина Унтила – региональный победитель ВСОШ по русскому языку, студентка программы «Фундаментальная и прикладная лингвистика», стажер-исследователь Центра языка и мозга НИУ ВШЭ – Нижний Новгород. Совместное с Ольгой Тасенко исследование «Шизофрения и ее влияние на лексический уровень языка» стало лучшей работой по лингвистике по итогам конкурса НИРС НИУ ВШЭ – Нижний Новгород. Об актуальных методах исследования речевых расстройств и возможностях лингвиста в науке Капитолина рассказала службе портала.
– Я всегда любила интеллектуальные соревнования, часто участвовала в олимпиадах, в первую очередь потому, что это означает попадание в лучшую среду для развития.
Я говорю на 4 языках – русском, татарском, английском и немецком, и сейчас в Вышке учу пятый, французский. Языки всегда были неотъемлемой частью моей жизни, и вопроса «Учить или не учить?» даже не стояло. Языки всегда давались мне легко. Мне нравится изучать язык как систему со своей историей и культурным бэкграундом. Как будто бы объясняя ситуацию на другом языке, ты получаешь возможность увидеть ее с нового ракурса, подсветить другие аспекты.
Путь в нейролингвистику начался с любви к языкам, когда возник интерес, как они организованы у нас в голове. Так я начала изучать, как взаимосвязаны мозг и речь, какие зоны мозга отвечают за понимание и порождение речи. В итоге это привело меня в Центр языка и мозга и определило нейролигвистику как сферу моих научных интересов.
– Какую цель вы ставили в работе над исследованием «Шизофрения и ее влияние на лексический уровень языка»?
– Основная цель – определить возможность написания модели, по речи предсказывающей наличие психического расстройства. В конкретном случае, модель должна по лексическим характеристикам предсказывать шизофрению.
На данный момент существует достаточно мало исследований речевых признаков шизофрении на материале русского языка, тем более исследований с использованием компьютерных инструментов, в том числе машинного обучения.
В своей работе мы исследовали влияние расстройства шизофренического спектра у пациента на его речь на лексическом уровне. Мы опирались на зарубежные исследования и сравнивали, как соотносятся их результаты и наши данные, ведь на русском языке подобных исследований практически не проводится.
Также на основе этих данных мы использовали различные модели машинного обучения для того, чтобы понять, возможно ли (и с какой точностью) на основании лексических особенностей речи предсказать наличие шизофрении.
– Какие методы вы использовали для получения данных?
– Мы исследовали корпус 3D, откуда взяли дискурсивные задания пациентов с расстройствами шизофренического спектра и группы нормы. Эти аудио автоматически транскрибировались (с ручной проверкой, разумеется). Далее мы вручную анализировали речевые особенности и ошибки.
Что касается автоматической обработки, так мы анализировали соотношение частей речи. Также для обучения моделей было создано 2 списка: позитивной и негативной лексики. Далее каждого человека из группы пациентов и контрольной группы был посчитан процент негативной и позитивной лексики.
Все эти данные и информация о возрасте и поле использовались для моделей машинного обучения.
– Поделитесь выводами?
– Было выявлено, что речь экспериментальной группы в среднем в два раза короче, при этом вероятность появления речевых ошибок в два раза больше. Доли различных частей речи в здоровом и шизофреническом дискурсах в целом совпали, различия в их соотношении составили от 0 до 2%. Кроме того, было обнаружено, что люди с шизофренией немного чаще используют негативную лексику. 2% негативной лексики от общего количества слов в речи пациентов по сравнению с 0% в контрольной группе. Что касается моделей, модель Random Forest Classifier с гиперпараметрами max_depth=24 и n_destimation=25 показала самую высокую полноту (0.79), то есть она наиболее точно определяет людей, у которых действительно есть расстройство.
– В чем новизна полученных результатов? Где они могут быть применимы?
– Новизна заключается скорее не в результатах, а в объекте исследования и методах. Русскоязычных исследований по нашей теме, сфокусированных именно на лексике, мы не нашли. А методы машинного обучения в нашей сфере используются не так часто, хотя и набирают популярность.
Эти данные можно будет использовать для достаточно точного машинного "диагноза". Мы будем использовать эти данные в дальнейшем исследовании влияния шизофрении на речь.
– Будете ли продолжать исследовать эту тему в других работах, в дальнейшей профессиональной деятельности?
– У нас большие планы на эту тему, мы планируем и дальше исследовать шизофрению и ее влияние на разные языковые уровни. Я планирую и дальше заниматься научной деятельностью. Моя основная сфера интересов – нейрохирургия, но тема психических расстройств тоже очень интересна.
Унтила Капитолина Витальевна
Центр языка и мозга: Стажер-исследователь