Проблемы и перспективы корпусной лингвистики в XXI веке
Зачем нужны корпусы и лингвисты в эпоху всеобщей автоматизации?
В современном мире, где искусственный интеллект и автоматические системы проникают во все сферы жизни, возникает закономерный вопрос: нужен ли ещё лингвист-человек, если многие задачи можно поручить машинам? В этой статье мы рассмотрим, как корпусная лингвистика — одно из самых динамично развивающихся направлений языкознания — отвечает на вызовы цифровой эпохи, а также разберёмся, какие инструменты предлагает современная корпусная лингвистика и где без человеческого интеллекта ей по-прежнему не обойтись.
Что такое корпусная лингвистика?
Современные лингвистические исследования уже невозможно представить без опоры на корпусные данные. Корпусная лингвистика — это направление, которое изучает язык через анализ электронных коллекций текстов (корпусов) с помощью специальных компьютерных инструментов. В одной из предыдущих статей мы уже рассказывали Вам о корпусной лингвистике (Ее Вы можете найти по ссылке), поэтому в настоящей статье мы остановимся на более практически ориентированных вопросах, связанных с основными методами работы этой отрасли.
Главное преимущество корпусного подхода — возможность работать с огромными массивами данных, что позволяет ставить гипотезы и вопросы, которые раньше было невозможно исследовать. Например, как менялась частота слова "егерь" в русском языке за последние 200 лет? Какие слова используют политики в своих выступлениях? Основные данные для исследования этих вопросов теперь можно получить за считанные минуты или часы.
Современные корпусы во всем своем многообразии
Современные лингвистические корпусы бывают очень разными. Их можно классифицировать по нескольким критериям:
1.По количеству языков:
Монолингвальные - корпусы, содержащие тексты или речь на одном языке (например, Основной подкорпус Национального Корпуса Русского Языка);
Мультиязычные (параллельные корпусы, в которых содержатся тексты на разных языках, что может быть полезно в переводческой практике). Например, в настоящее время существует корпус всего с одним текстом – Библией – на разных языках;
Сопоставительные (позволяющие сравнивать разные языки). Основное отличие таких корпусов от корпусов параллельных заключается в том, что последние направлены на точное сопоставление текстов, построчное выравнивание предложений, в то время как основная цель сопоставительных корпусов – объединение текстов, схожих по смыслу, времени. Например, при использовании параллельного корпуса мы можем поставить исследовательский вопрос так: «Какими способами переводится одно и то же слово одного языка на другой язык?». При использовании же сопоставительного корпуса мы можем, например, изучить, какую специфику имеют тексты схожей направленности, схожие по смыслу, но на разных языках, и какие культурные особенности накладывают влияние на, казалось бы, схожие языковые данные.
2.По типам текстов:
Письменные (литературные, научные, публицистические);
Устные (интервью, спонтанная речь с транскрипцией);
Специализированные (юридические, медицинские, технические тексты).
3.По степени разметки:
Морфологически размеченные (с указанием частей речи);
Синтаксически аннотированные (с анализом структуры предложений);
Семантически размеченные (с указанием значений слов).
Хочется сказать, что в настоящее время благодаря развитию различных компьютерных инструментов лингвистического исследования все больше и больше корпусов получают разнообразную разметку. Например, если ранние корпусы текстов состояли из примерно 100 тысяч слов и включали только морфологическую разметку, то на данный момент почти каждый корпус, даже собранный лингвистами-любителями, может включать в себя сотни тысяч слов, размеченных при помощи автоматических программ, однако не всегда эта разметка верна, ведь программы еще не научились рассуждать как люди, и они могут ошибаться, причем довольно часто. Наверное, наиболее сложным видом разметки для автоматических программ является именно семантическая разметка, ведь многие слова имеют большое количество значений, как компьютеру понять, в каком значении слово «мощный» используется в нашем тексте? Из хорошо семантически размеченных корпусов можно выделить Национальный Корпус Русского Языка, способный вывести список слов в контексте по различным признакам (прилагательные со значением цвета, качества, глаголы движения, действия и так далее).
4. По наличию метаинформации о тексте, представленном в корпусе:
Неразмеченные. Многие корпусы содержат непосредственно тексты с их лингвистической разметкой (как уже говорилось выше, части речи, синтаксические связи или значение слова относятся именно к этому типу разметки).
Имеющие разнообразную метаинформацию. Неразмеченные корпусы сами по себе являются довольно полезным инструментом, но что делать, если мы хотим доказать какую-то гипотезу, требующую дополнительной информации? Например, если мы хотим сравнить частоту употребления слова «егерь» в русском языке, то одной лингвистической информации нам будет мало. Для этого во многие корпусы добавляют разнообразную нелингвистическую информацию, такую как информация об авторе, времени, месте написания текста и так далее. Например, если мы проверим в НКРЯ исследовательский вопрос про наше слово «егерь», то увидим четкий спад частоты употребления слова, что логично, ведь это слово является историзмом(словом, вышедшим из употребления в связи с исчезновением той вещи, которая этим словом обозначалась). Все это значительно расширяет пространство для постановки гипотез и исследовательских вопросов и делает корпусы еще более мощным инструментом для работы с языком.
Стоит отметить, что многие современные корпусы включают подкорпусы — специализированные коллекции текстов определённого жанра, автора, времени или стиля. Например, если мы хотим ответить на поставленный ранее вопрос о том, какие слова чаще всего используются в речи политиков, мы можем взять устный подкорпус, а в нем выбрать только записи изречений, выступлений политических деятелей, и это позволит нам изучить определенные закономерности в конкретной разновидности языка, а не во всём его многообразии сразу, что позволяет сузить область работы.
Инструментарий корпусного лингвиста
Современные корпусные менеджеры предлагают богатый набор инструментов для анализа текстов, однако их все можно свести к 4 основным:
- Коллокационный анализ — выявляет устойчивые словосочетания и показывает, какие слова-соседи чаще всего встречаются рядом с заданным словом.
- Поиск ключевых слов — определяет наиболее частые для данного корпуса слова по сравнению с другими коллекциями текстов.
- Частотный анализ — подсчитывает, как часто встречаются определённые слова или конструкции.
- Грамматическая разметка — автоматически определяет части речи и иные грамматические характеристики слов.
Эти инструменты открывают перед исследователями новые горизонты, позволяя за минуты получить данные, на сбор которых вручную ушли бы годы. Например, в одном из своих исследований на ФиПЛе я изучал, в каком значении употребляется слово “love” в текстах песен музыкального исполнителя Эминема. При помощи коллокационного анализа я увидел, что в большинстве случаев это, казалось бы, хорошее по значению слово, связано с агрессией и насилием. На исследование данного вопроса у меня ушло не больше часа, в то время как если бы я исследовал все контексты вручную, то мне пришлось бы самостоятельно искать это слово в каждой песне, а потом еще искать слова, его окружающие, что заняло бы намного больше времени. Также инструменты корпуса могут быть полезны для обучения машины. Например, если при поиске ключевых слов в корпусе большинство из них относятся к определенному стилю, то компьютер может сам понять, к какому жанру отнести собранный корпус и тексты из него. В другом исследовании я проверил ключевые слова одного корпуса, и, как оказалось, большинство из них относятся к специализированному стилю, а именно – к сфере бизнеса и экономики. Такие особенности текстов могут использоваться для того, чтобы обучать компьютеры самостоятельно определять общее значение текстов или предложений.
Вызовы современной корпусной лингвистики
Несмотря на впечатляющие возможности, в настоящее время корпусная лингвистика сталкивается с серьёзными проблемами:
1. Проблема сравнения неравных корпусов
Как сравнить частоту слова у двух авторов, если один написал миллион слов, а другой — лишь сто тысяч? Абсолютная частота в таком случае даст искажённые результаты. На помощь приходят сложные статистические методы: относительная частота, логарифмическая вероятность и другие математические формулы, работа с которыми часто требует дополнительного изучения информации.
2. Проблема интерпретации данных
Статистические методы оценивания информации действительно помогают оценить данные более правильно, однако нет точного ответа на вопрос, какую именно меру использовать. Мы можем сказать, что в большинстве случаев абсолютная частота будет плохим выбором, ее результаты редко бывают репрезентативными, однако, когда речь заходит о более сложных, комплексных мерах, лингвистам приходится выбирать одну из многих в зависимости от большого количества факторов данного конкретного исследования. Более того, даже идеально подобранный и правильно работающий инструмент не заменит человеческий интеллект и экспертизу, ведь полученные с помощью меры оценивания числа необходимо правильно проинтерпретировать, а если значение слишком неожиданно, то важно объяснить возможные причины такого феномена, и именно на этом этапе необходимо вмешательство исследователя-человека.
3. Ограничения автоматического анализа
Человеческий язык невероятно сложен, и программы часто ошибаются в, казалось бы, очевидных для человека вещах: определении части речи, падежа, числа.
Например, слово "печь" — это глагол или существительное? Для человека контекст обычно даёт однозначный ответ, а вот компьютерные алгоритмы могут ошибаться. Поэтому результаты автоматического анализа часто требуют ручной проверки лингвиста, что забирает довольно большое количество ресурсов.
Перспективы развития: взаимодействие человека и машины
Корпусная лингвистика — это яркий пример того, как современные технологии не заменяют специалиста, а расширяют его возможности. Автоматические инструменты берут на себя рутинную работу с большими объемами данными, освобождая лингвиста для непосредственного анализа, интерпретации данных и нахождения причин, повлекших определенные результаты.
Перспективы развития корпусной лингвистики связаны с:
совершенствованием алгоритмов автоматического анализа текстовых данных созданием более универсальных систем разметки, которые смогли бы опираться на контекст, языковое окружение слова, так часто необходимое для безошибочного определения грамматических характеристик слова;
интеграцией методов искусственного интеллекта для упрощения работы с данными и для того, чтобы программы учились работать с языком, как это делал бы человек.
И самое основное — обучать новые поколения лингвистов, которые смогут не только интерпретировать данные, полученные в процессе работы автоматической программы, но и создать новые, работающие быстрее и правильнее ныне существующих.
Заключение
Хочется отметить, что корпусная лингвистика — динамично развивающаяся область, которая даёт исследователям мощные инструменты для работы с языковыми данными. Однако, как мы убедились, даже самые совершенные технологии на данный момент не могут полностью заменить лингвиста-человека. В настоящее время корпусная лингвистика предоставляет поле для полезного взаимодействия человека и автоматических программ: машины обрабатывают большие объёмы данных, а специалисты исправляют ошибки, интерпретируют результаты, применяя свое языковое чутье и человеческий опыт, недоступный компьютеру, и продолжают усовершенствование существующих методов автоматического анализа текстов.
Автор: Андрей Климов, 23ФиПЛ