• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

На острие лингвистической науки

В цикле научно-популярных статей студенты ФиПЛа рассказывают об актуальных направлениях лингвистических исследований.
Сегодня мы хотим посвятить вас в одну из передовых областей лингвистики и рассказать, чем корпус может быть полезен нелингвистам, интересующимся своим и чужими языками. Также вы узнаете, когда кофе стал «оно» и почему корпус – лучший друг переводчика.

На острие лингвистической науки

Burst

Современную лингвистику невозможно представить без корпусов. Корпус текстов – это электронный ресурс, где собран большой объем аннотированных текстов, используемый учёными для анализа разных явлений в языке. Корпус создаётся в соответствии с четкими языковыми критериями и используется как модель языка. В отличие от электронных библиотек, корпусы не созданы для чтения рядовыми носителями языка – лингвист с их помощью может «разобрать» язык по кусочкам и проводить различные исследования. Сегодня мы хотим посвятить вас в одну из передовых областей лингвистики и рассказать, чем корпус может быть полезен нелингвистам, интересующимся своим и чужими языками. Также вы узнаете, когда кофе стал «оно» и почему корпус – лучший друг переводчика.

Незаменимый инструмент лингвиста
Не будет преувеличением сказать, что этот инструмент в корне изменил исследовательский процесс. Посудите сами: раньше для анализа, например, значения слова человеку приходилось буквально открывать книгу и искать контексты его употребления. Для сбора достаточного количества данных этот процесс, очевидно, занимал не один день. Теперь лингвисту требуется лишь ввести слово в поисковую строку и подобрать лексико-грамматические параметры.
На этом преимущества электронных сборников текстов не заканчиваются. Важной особенностью корпусов является репрезентативность, то есть способность отражать все стили речи в той же пропорции, в какой они существуют в реальной речевой практике. Так лингвисты получили возможность изучать не только язык художественной литературы или СМИ, но и бытовой разговорный язык и даже устную речь.
Появляются так называемые национальные корпусы, к примеру, Национальный корпус русского языка (НКРЯ), Британский национальный корпус, Корпус современного американского английского и т.д. С другой стороны, существуют специализированные газетные, поэтические, устные, акцентологические (с проставленными ударениями) и даже мультимедийные корпусы, параллельные двуязычные корпусы и коллекции текстов, созданные для специальных целей теоретической и прикладной лингвистики.



Интерфейс сайта Национального корпуса русского языка


Физика и лирика
Дело в том, что корпусная лингвистика активно использует аппарат математической статистики. Помимо информации о частности тех или иных единиц, лингвисты получили возможность, например, находить в речи устойчивые выражения с помощью мер ассоциативности – числовых значений, которые показывают, случайно ли два слова встретились рядом в тексте или они действительно семантически связаны. Можно также вычислять ключевые слова, сравнивая их частотность в тексте с частотностью во всём корпусе. Например, если “достать” ключевые слова из романа Достоевского “Преступление и наказание” (за корпус берём набор романов Достоевского), то, неудивительно, получим имена главных героев:  Раскольников, Соня, Разумихин, Петрович, Свидригайлов, Дуня, Порфирий и т.д. Кроме того, именно составление и разметка корпусов лежат в основе обучения языковых моделей искусственного интеллекта.


Burst

Зачем человеку корпус?
Корпусы текстов полезны для многих интересующихся языком. Например, в них можно искать ещё не зафиксированные в словарях слова, чтобы узнать их значение. Возьмём англицизм «хайп», найдём его в корпусе и с помощью конкорданса, то есть списка контекстов для данной единицы, обнаружим, что «хайп» означает привлечение внимания к чему-либо, шумиху, а также иногда приобретает негативную окраску, например: А можно поднять немыслимый хайп вокруг какой-нибудь нелепой административки ― как было с задержанием мальчишки на Арбате. [Анатолий Салуцкий. Немой набат // «Москва», 2019].
С помощью корпуса можно отслеживать языковые изменения и открывать для себя интересные факты из истории языка. Вот, например, строка из акцентологического подкорпуса НКРЯ: Гремѝт музы̀ка, слы̀шны хо̀ры \ Вкруг ла̀комы̀х твоѝх столо̀в [Г. Р. Державин. К первому соседу : «Кого роскошными пирами...» (1780)] – в ней мы можем увидеть старый вариант произношения слова «музыка» с ударением на «ы».
 Можно также узнать, что род «кофе», так часто обсуждаемый сегодня, колеблется уже не первое столетие, сравните: Зато мы с италиянцем пьем в день чашек по десяти кофекоторое везде находили. [Н. М. Карамзин. Письма русского путешественника (1793)] – Я спросил кофекоторый мне тотчас и подали. [Д. И. Фонвизин. Письма родным (1784-1785)]. С другой стороны, привычные нам слова среднего рода раньше употреблялись и в мужском: Действительно, когда Карачунский пил свой утренний какао, к господскому дому подкатила новенькая кошевка. [ Д. Н. Мамин-Сибиряк. Золото (1892)] …так как на мне был теплый пальто и теплые калоши, то я и не воротился за ней. [А. И. Герцен. Былое и думы. Часть пятая. Париж-Италия-Париж (1862-1866)].
Так называемые параллельные корпусы, то есть сборники текстов на двух языках, полезны для изучающих иностранные языки. Например, если слово кажется непереводимым на другой язык, стоит обратиться к корпусу и посмотреть, как с интерпретацией справлялись переводчики. Одним из таких слов в русском считается «хандра» – на английский язык параллельный подкорпус НКРЯ предлагает переводить это слово как dumps, gloom, dejection, blues, spleen или формулировать предложение иначе: Случись, что я не буду в известный час на том же месте Фонтанки, я уверен, что на него нападет хандра. – If I happen not to be at a certain time in the same spot in Fontanka, I am certain he feels disappointed.
[Ф. М. Достоевский. Белыеночи (1848) | Fedor Dostoevsky. White Nights (Constance Garnett, 1918)].
Вот так революционное изобретение на стыке лингвистики и науки о данных помогает изучать языки учёным и не только. Теперь ваш черёд открывать для себя новое с помощью корпусов!

Автор: Данила Исаков, 22ФиПЛ