We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Computational Linguistics

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Elective course
When:
4 year, 3 module

Instructor


Slashchinin, Sergey

Программа дисциплины

Аннотация

Курс направлен на подготовку специалистов, способных проводить информационное моделирование предметной области и решать прикладные задачи обработки информации на высоком техническом уровне. Практические занятия служат для получения устойчивых навыков обработки естественного языка с использованием современных высокоуровневых языков программирования в качестве прикладного программиста. Для выполнения заданий используется скриптовый язык Python3, а также технологическая платформа Anaconda4. Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: • современные методы проектирования и реализации информационных систем; • основные алгоритмы и структуры данных для быстрого поиска информации; • программирование на языках С, C++
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины "Компьютерная лингвистика" являются формирование у студентов четкого представления места и роли современных систем извлечения данных, освоение теоретических основ моделирования и обработки информации на естественном языке, понимание тенденций развития отрасли и направления перспективных исследований, изучение студентами принципов построения современных информационно-поисковых систем
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь обрабатывать тексты с помощью основных алгоритмов
  • Уметь использовать векторные представления текстов для ответа на запросы
  • Уметь использовать вероятностную модель для поиска информации в тексте
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы обработки текстов
    Задачи компьютерной лингвистики. Предобработка текстов. Токинизация, разбиение на предложения, нормализация, стемминг, лемматизация. Поиск подстроки в строке. Дистанция редактирования, расстояние Левенштейна. Обратный индекс. Предобработка, регуляр-ные выражения. Вычисление дистанции редактирования. Лемматизация Pymorphy2. Применение обратного индекса для поиска в документах
  • Представление текстов в векторном пространстве
    Модель мешка слов, частоты слов, стоп слова, TFIDF, тексты в векторном пространстве. Норма вектора и расстояние в метрическом пространстве. Косинусное расстояние. Разреженные матрицы. Вычисление TF и косинусных расстояний между векторами, сохранение в CSV. Лемматизация Mystem3. Парсинг XML структуры
  • Вероятностная модель извлечения информации
    Вероятностная модель BIRM. Вычисление значений коэффициентов и визуализация функции распределения для релевантных и не релевантных документов коллекции. Анализ качества работы системы извлечения информации. Ошибки первого и второго рода, точность, полнота, F-мера, ROC, AUC. Марковский процесс и N-граммная языковая модель. Перплексия. Вычисление перплексии текста, используя частоты юниграмм. Скрытая марковская модель. OpenCorpora. Задача тегирования
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание №1
  • неблокирующий Домашнее задание №2
  • неблокирующий Домашнее задание №3
  • неблокирующий Экзамен
    Итоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
  • неблокирующий Домашнее задание №1
  • неблокирующий Домашнее задание №2
  • неблокирующий Домашнее задание №3
  • неблокирующий Экзамен
    Итоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Домашнее задание №1 + 0.2 * Домашнее задание №2 + 0.3 * Домашнее задание №3 + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818

Рекомендуемая дополнительная литература

  • Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500
  • Интеллектуальный анализ данных и систем управления бизнес-правилами в телекоммуникациях: Монография / Р.Р. Вейнберг. - Москва : НИЦ ИНФРА-М, 2016. - 173 с.: 60x90 1/16. - (Научная мысль) (Обложка) ISBN 978-5-16-011350-0 - Текст : электронный. - URL: http://znanium.com/catalog/product/520998
  • Информационные системы : учебное пособие / О. Л. Голицына, Н. В. Максимов, И. И. Попов. — 2-е изд. — М. : ФОРУМ : ИНФРА-М, 2018. — 448 с. : ил. — (Высшее образование). - Режим доступа: http://znanium.com/catalog/product/953245
  • Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2018. — 343 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/924699
  • Цифровые методы обработки информации/БорисоваИ.В. - Новосиб.: НГТУ, 2014. - 139 с.: ISBN 978-5-7782-2448-3