Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинар 7. Разметка корпуса

19 мая участники «КомпЛинг» встретились, чтобы обсудить схему разметки мультимодальных данных для проекта. Основным спикером выступила Полина Жилина. Она поделилась разработанным протоколом аннотирования данных, базирующемся на подходе А.А. Кибрика и В.И. Подлесской (Кибрик А. А., Подлесская В. И. К созданию корпусов устной русской речи: принципы транскрибирования //Научно-техническая информация. Серия. – 2003. – Т. 2. – №. 6. – С. 5-11.). Полина адаптировала настоящий подход для решения специфических задач проекта.

В ходе обсуждения группой были предложены некоторые дополнения и корректировки. Большой вклад в разработку протокола внёс Артем Микулинский. После суммирования всех корректировок был разработан итоговый протокол разметки, который отличался от стандартной разметки корпуса «Рассказы о сновидениях» в следующих аспектах:

- обозначение незаполненных и заполненных пауз;

-  обозначение пограничных пауз;

- переопределение графического обозначения интонации многоточия;

- переформатирование отображения удлинения в произнесение слов;

- обозначение двойной фонации следующим образом: Это было незабываемое [событие! Р2: Да, ]согласна с тобой;

- для всех случаев цитации используются кавычки-ёлочки («»);

- обозначение неразборчивых звуковых отрезков заменяется на {НРЗБ};

- в случае, если предложение состоит из нескольких элементарных дискурсивных единиц (ЭДЕ), каждая из которых выражает различное иллокутивное значение, разметка предполагает указание иллокуции для каждой ЭДЕ отдельно;

- введение ряда новых обозначений (подробнее: в ВКР «Создание корпуса устной речи для диагностических целей с использованием автоматических алгоритмов распознавания речи»).

В течение месяца по настоящему протоколу членами команды были размечены имеющиеся в распоряжении научно-учебной группы тексты. Проведена кросс-валидация разметки.

Результаты работы Полины Жилиной и команды в том числе отражены в выпускной квалификационной работе Полины «Создание корпуса устной речи для диагностических целей с использованием автоматических алгоритмов распознавания речи», прошедшей успешную защиту и оцененной комиссией на отлично. Тезисы работы Полины приняты к участию в Летней нейролингвистической школе Центра языка и мозга НИУ ВШЭ в Москве.

 

Итоговый протокол разметки мультимодальных данных (XLSX, 16 Кб) 

ВКР_Создание корпуса устной речи для диагностических целей с использованием автоматических алгоритмов распознавания речи_Жилина (PDF, 1.94 Мб) 

Тезисы_Создание транскриптов устной речи для диагностических целей с использованием автоматических алгоритмов распознавания_Жилина (DOCX, 23 Кб) 

​​​​​​​


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.