• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Взаимодействие лингвистики и ИИ: опыт исследователя из AIRI

Хумонен Иннокентий Сергеевич — выпускник магистратуры “Компьютерная лингвистика” НИУ ВШЭ, исследователь AIRI (Artificial Intelligence Research Institute). Он рассказывает о своем пути – от образования до текущих профессиональных задач, размышляет о перспективах в  NLP и лингвистике. Статья будет полезна всем, кто интересуется современными тенденциями в разработке AI и компьютерной лингвистики.

Взаимодействие лингвистики и ИИ: опыт исследователя из AIRI

Изображение создано с помощью нейросети Gemini Image
Выяснили достаточно про ИИ в предыдущей статье, теперь пора и самим научиться пользоваться этим чудом чудесным! Углубленное изучение ИИ полно опасностей: можно самому стать неотличимым от нейросети, обученной на собственных данных, или слишком глубоко погрузиться в NLP, начав говорить векторами. Избежал ли наш гость этих опасностей? Судите сами!
  • Как Вы пришли в сферу компьютерной лингвистики? Был ли момент, когда Вы поняли, что хотите заниматься именно этим? 

В школе и бакалавриате я занимался математикой, но уже тогда у меня был интерес к лингвистике, причем даже обычной, не компьютерной. В это время я пару раз ходил на олимпиады по лингвистике и программированию. Я делал окололингвистические проекты. В программе бакалавриата у нас, например, был курс по выбору от Бориса Иомдина, где он рассказывал про лингвистику математикам —  это был приятный и интересный курс, который мне нравился. К концу бакалавриата я понял, что больше не хочу и не могу заниматься математикой по разным причинам. Тогда решил, что нужно искать ей какое-то приложение. Компьютерная лингвистика оказалась самым интересным и привлекательным для меня вариантом, я поступил в магистратуру на программу «Компьютерная лингвистика» и так и начал ей заниматься.

  • Как полученное образование помогает в сфере IT?

Сложно однозначно сказать, помогает ли образование компьютерного лингвиста в сфере IT. С одной стороны, это действительно компьютерное образование, то есть студентов учат программировать, работать с базами данных и т.д., и это не может не помогать. С другой стороны, курсы по теоретической лингвистике не пригодятся, если вы будете заниматься самым обычным IT. Если же заниматься именно компьютерной лингвистикой, то всё зависит от задач: с теоретическими знаниями будет чуть-чуть понятнее, например, какие данные попадают в модель, и будет намного легче разговаривать с настоящими лингвистами при обсуждении совместных проектов.
Все это так звучит, как будто бы надо вообще выкинуть лингвистические курсы и заниматься только компьютерными, но, на самом деле, нет. И, наверное, лингвистические курсы нравились мне даже больше компьютерных.
 

Получается, математика + лингвистика = вычислительное понимание того, как работает человеческая речь! 
  •  Расскажите, пожалуйста, подробнее о вашей работе в AIRI. Над какими проектами работаете? Многие ли связаны с лингвистикой? 

Прямо сейчас в AIRI я работаю над проектом, который связан с Древним Египтом.
И, с одной стороны, это разные OCR-штуки. OCR — это оптическое распознавание символов, то есть распознавание иероглифов и перевод их в настоящий текст на компьютере. А с другой стороны, в этом проекте много NLP-задачек, например, перевод, различные анализаторы, снятие омонимии в большом корпусе текстов.
Плюс есть еще несколько маленьких проектов, которые тоже связаны с переводом. 
Мы надеемся, что работа про Древний Египет вырастет в более широкий проект, с одной стороны, про археологию и про помощь археологам, а с другой стороны — в разные переводчики, инструменты для малоресурсных языков, не только мёртвых, но и вполне себе живых. Получается, что все мои проекты сейчас связаны так или иначе либо с NLP, либо непосредственно с лингвистикой. 
Раньше я работал в другой команде и совсем небольшая часть моих проектов относилась была связана с обработкой языка. Я занимался геометрическими моделями машинного обучения для материаловедения, но решил, что хочу все-таки больше заниматься NLP-задачками, и сменил команду.

Кто бы мог подумать, что Древний Египет и технический прогресс найдут точки соприкосновения в статье о лингвистике и компьютерах… Когда твоя модель может расшифровать иероглифы быстрее археолога, но всё ещё не понимает современный интернет-сленг — это и есть прогресс!  

  •  Какие проекты, связанные с лингвистикой и NLP, сейчас наиболее актуальны? 

Мне кажется, правильнее говорить отдельно про NLP и отдельно про лингвистику. К сожалению или к счастью, из-за больших языковых моделей, или даже из-за трансформеров, NLP какое-то время существует отдельно от лингвистики и от лингвистов.
То есть, лингвисты, конечно, участвуют, но глобально это с каждым годом все больше и больше программистская история. При этом лингвистика никуда не делась, у нее есть собственные проблемы, собственные задачи, и часть из этих задач можно решать с помощью методов машинного обучения и искусственного интеллекта.
С точки зрения мейнстримного NLP, самые актуальные проекты  это, конечно, LLM, то есть большие языковые модели и их применение. Во-первых, это понимание границ того, что LLM может, а что не может, где им можно пользоваться, а где нельзя. Во-вторых, это непосредственно создание инструментов, в частности, LLM-агентов или RAG, чтобы LLM могла не только разговаривать, но еще, например, ходить в базы данных, источники информации, подтягивать хотя бы калькулятор. 
С точки зрения лингвистики, я бы сказал, что самые актуальные проекты — это малоресурсные штуки. То есть задачи, в которых не хватает данных для обучения, или просто языки, для которых никто не обучал LLM, потому что на этих языках разговаривает мало людей.

  • Как Вы видите взаимодействие IT и лингвистики сегодня? Изменилась ли роль лингвиста с развитием нейросетевых моделей?

Я начну отвечать на этот вопрос с конца, то есть со второй части. Роль лингвиста в развитии лингвистических моделей очень сильно изменилась. По-моему, набор скиллов и умений, которые нужны человеку, занимающемуся NLP, очень сильно сдвинулся в компьютерную сторону. Сейчас люди, которые занимаются обработкой естественного языка, это прежде всего программисты: кто-то занимается алгоритмами, кто-то машинным обучением, и есть те, кто решает в основном компьютерные задачи, которые к языку часто имеют опосредованное отношение. И, наверное, про этот сдвиг намного лучше меня может рассказать текст Даниила Скоринкина.
При этом взаимодействие IT и лингвистики никуда не делось, но продолжается в обе стороны. Конечно, IT может очень много дать традиционной лингвистике как, в принципе, так же, как и любой другой науке и вообще очень многим областям знаний.
Есть много-много инструментов, которые способны облегчить жизнь лингвисту. Иногда эти инструменты довольно наукоемкие, но часто это просто что-то вроде удобных сервисов. При этом лингвистика, конечно же, на IT тоже влияет, но, наверное, намного меньше, чем это было раньше, даже если мы говорим именно про обработку естественного языка. И роль лингвиста тут скорее похожа на роль доменного эксперта, который в каком-то смысле оценивает работу программиста. Потому что можно взять и обучить языковую модель, но не всегда понятно, что из этого выйдет, какие задачи она сможет решать и где именно она будет ошибаться.
И тут-то как раз нужны лингвисты. Они смогут сказать, “да, смотрите, действительно, модель вот это понимает, а вот это не понимает” или “смотрите, вы сделали вот это, а можно на самом деле было сделать еще вот это и вот это, и людям вообще, и нам как лингвистам нужны на самом деле немного другие задачи”. То есть взаимодействие-то происходит, но я думаю, что сейчас оно скорее такое же, как у IT и любой другой области: IT поставляют полезные классные инструменты, а эксперты в области способны оценивать результаты, уточнять задачи и выдавать свою экспертизу.

Лингвист теперь — это как техлид для языка: не пишет код сам, но объясняет людям (и LLM), почему "Бесцветные зелёные идеи спят яростно" — это технически корректно, но семантически бредово.


  • Какой совет вы дадите студентам, которые хотят углубиться в NLP и разработку ИИ? С чего начать?

Первый совет, который я бы хотел дать таким студентам, это перестать обманывать себя и честно принять, что тот, кто хочет углубиться в NLP и в разработку искусственного интеллекта, должен заниматься программированием. Не то, что не лингвистикой, а даже, на самом деле, не математикой. Чтобы углубляться в NLP, надо углубляться в программирование. 
Остальные советы такие. Вам нужно понять, что именно вам нравится больше всего во всём многообразии задач, что приносит вам радость, что драйвит, и попытаться сделать какой-нибудь проект в этой области самому. Найти данные, обучить модель и задеплоить эту модель в виде чего угодно, например, в виде телеграм-бота. Это полезно и для личного опыта, и для вашего резюме или портфолио. Когда вы рассказываете на собеседовании про опыт создания хороших работающих проектов — это добавляет очков. Особенно здорово, если собеседующие могут прямо взять и открыть этого бота, приложение, демо-версию и посмотреть.
Начать можно с общих курсов по машинному обучению и с курсов, на которых объясняют табличное машинное обучение и то, как работать с данными, потому что даже достаточно умные модели работают плохо, если вы даете им неподходящие данные. Сложно без понимания того, что никакой магии на самом деле не происходит, а все это в некотором смысле описание и моделирование, распределений, а потом подгонка модели под эти распределения. И при этом надо не забывать про разработку и курсы по настоящему программированию, по кодингу и всему такому. 

  •  Как лингвистам составить конкуренцию программистам в сфере автоматической обработки языка и разработки искусственного интеллекта? В чём их преимущество?

С одной стороны, очень хочется ответить, что никак. Отдайте программистам то, чем они занимаются, пусть они работают со своими программистскими вещами.
Если вы лингвист и вам хочется составлять конкуренцию программистам, то, наверное, вам надо пойти и переучиться на программиста и заниматься программированием, тогда вы будете действительно конкурировать.
И я бы не сказал, что действительно нужно составлять конкуренцию. Более правильно говорить о сотрудничестве. То есть, конечно, нужно поучить Python, можно понимать, как работает машинное обучение. Но при этом надо помнить, что ваше доменное лингвистическое образование — оно классное, на самом деле полезное, и у программиста его нет, а вы уже чуть-чуть научились кодить и уже хотя бы понимаете, о чем он говорит. Поэтому нужно искать проекты, которым пригодится ваша лингвистическая экспертиза. И в этих проектах сотрудничать с программистами и эту экспертизу применять.
Это все звучит довольно расплывчато — действительно, какого-то готового рецепта нет, но есть места, где, по-моему, лингвистический бэкграунд все еще важен. Во-первых, это каждый раз места, где данных для машинного обучения не так много. И места, где эти данные надо как-нибудь размечать или откуда-нибудь добывать. Лучше для вас, если размечать. Тут вы можете лучше других понимать, как именно организовать разметку, какие данные нужны, какие не нужны. Во-вторых, это задачи, связанные с оценкой того, какие именно лингвистические ошибки делает модель, насколько хороший результат она выдает. В-третьих, вы можете хорошо понимать, какие инструменты нужны вам. Может быть, не вам лично, а другим лингвистам, которые сидят в соседнем здании от вас. И за счет этого понимания объяснять программистам, что действительно нужно и полезно.

Лингвист vs Программист — это не борьба, а кооперативная игра. Лингвист знает, что язык должен делать, программист знает, как заставить программу это делать. Perfect match!

  •  Какие навыки (hard/soft skills, возможно, полученные в магистратуре) оказались самыми полезными в Вашей работе?

Самым полезным навыком я бы назвал умение доводить любой проект до результата, который можно потрогать, а если не потрогать, то прочитать (научная статья, например). Конечно, это не всегда получается, но я научился думать об этом с самого начала проекта и работать с таким фокусом. Если вы что-то сделали, а потом оставили это у себя где-то в папке в jupyter-тетрадках, это не очень полезно даже для вас.
Пытайтесь заворачивать все, что есть, во что-нибудь публичное: пост, статья, открытый github-репозиторий… Не стесняйтесь, делайте это, даже если результат на самом деле небольшой или не новый. Все равно кто-нибудь, увидев или воспользовавшись этим, сможет дать вам обратную связь, и работа не будет проделана впустую. В какой-нибудь момент вы обязательно сделаете что-нибудь большое, важное и популярное, и если у вас не будет привычки оборачивать все в публичную обертку, то вот это ваше что-то большое, важное и популярное так и останется в непонятных папках на компьютере. Мне кажется, это действительно важно.
Конечно, нельзя пропустить обучение моделей машинного обучения, потому что это ровно то, чем я сейчас занимаюсь. Если бы меня не учили этому, то, наверное, мне бы пришлось учиться самому, иначе я бы занимался чем-то другим.

  •  Насколько остро стоит проблема этики и искусственного интеллекта?

Очень хороший вопрос. Мне кажется, этические проблемы  действительно стоят довольно остро. И они действительно появились в последнее время, потому что большие языковые модели стали убедительно притворяться людьми. Модели для генерации видео уже очень хорошо это делают, и скоро они станут генерировать видео еще лучше, не говоря уже про фотографии, а еще через какое-то время эти модели станут легковесными, то есть будут широко доступны. Действительно, появляется очень много фейкового контента, и не совсем понятно, что с этим делать. 
Возможно, мы попадаем во что-то, напоминающее киберпанк, в том смысле, что наши технические возможности становятся очень большими, а морально, этически никакого огромного скачка не происходит. 
Но при этом я думаю, что у нас как общества есть запас прочности, чтобы с такими вызовами и проблемами справляться. Например, насколько я знаю, разные исследования про редактирование генома довольно сильно регулируются.
Так что я думаю, что проблемы есть, но при этом надеюсь, что у нас есть и возможности их решать. 

  • Как лингвисты могут влиять на этичность и безопасность AI-моделей?

Можно смотреть на их выходы, на то, что они генерируют, и оценивать их. Дальше вместе с людьми, которые эти модели обучают и готовят данные, пытаться исправить то, что приводит к генерации неэтичного контента. 
При этом, на самом деле, мне кажется, что этичность и безопасность модели искусственного интеллекта это не совсем лингвистический вопрос. С одной стороны, это вопрос законотворчества, цензуры и так далее. С другой стороны это, возможно, вопрос философии или социологии. То есть той науки, которая действительно помогает нам различать, что хорошо, что плохо. Потому что лингвистика  скорее рассказывает, как в языке выражается что-то хорошее, или что-то плохое, или что-то неэтичное, или что-то небезопасное. Но что именно плохое и что именно хорошее уже решает не лингвистика, она просто фиксирует способ выражения. И проблема этичности и безопасности огромна,она  должна решаться людьми из разных наук и областей знаний, людьми разных профессий.
Но, конечно, лингвисты тоже должны в этом участвовать.

Лингвисты — это не этические судьи, а скорее переводчики между "что хотел сказать ИИ" и "что услышал человек". Важная роль, но не единственная в стремлении получить этичного и безопасного компаньона.

После интервью мы так и не поняли до конца — говорили ли мы с человеком или с очень хорошо обученной моделью... Возможно, это уже и не важно. Главное, что кто-то (или что-то) в AIRI продолжает учить машины не только понимать современные мемы, но и древнеегипетские иероглифы. 

В мире, где ИИ пытается быть человеком, а человек всё больше думает как алгоритм, граница стирается. И это, пожалуй, самый интересный эксперимент нашего времени. Будем вместе наблюдать, что произойдет (и активно участвовать)!

 

P.S. Все шутки в этой статье прошли этическую проверку на соответствие академическим стандартам юмора. Модели AIRI гарантируют: ни один древний египтянин не был оскорблен в процессе создания этого материала. 

P.P.S. Если после прочтения этого интервью вы начали сомневаться в собственной человечности — не волнуйтесь, это нормально. Просто добавьте в свою жизнь больше случайности и меньше паттернов!

 

Авторы:

Арина Савина, Софья Нуртдинова, 22ФиПЛ