• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Книга
Integral Robot Technologies and Speech Behavior

Kharlamov A. A., Pantiukhin D., Borisov V. et al.

Newcastle upon Tyne: Cambridge Scholars Publishing, 2024.

Глава в книге
Neural Networks for Speech Synthesis of Voice Assistants and Singing Machines

Pantiukhin D.

In bk.: Integral Robot Technologies and Speech Behavior. Newcastle upon Tyne: Cambridge Scholars Publishing, 2024. Ch. 9. P. 281-296.

Препринт
DAREL: Data Reduction with Losses for Training Acceleration of Real and Hypercomplex Neural Networks

Demidovskij A., Трутнев А. И., Тугарев А. М. et al.

NeurIPS 2023 Workshop. ZmuLcqwzkl. OpenReview, 2023

Компьютерная лингвистика

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты

Преподаватель

Программа дисциплины

Аннотация

Курс направлен на подготовку специалистов, способных проводить информационное моделирование предметной области и решать прикладные задачи обработки информации на высоком техническом уровне. Практические занятия служат для получения устойчивых навыков обработки естественного языка с использованием современных высокоуровневых языков программирования в качестве прикладного программиста. Для выполнения заданий используется скриптовый язык Python3, а также технологическая платформа Anaconda4. Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: • современные методы проектирования и реализации информационных систем; • основные алгоритмы и структуры данных для быстрого поиска информации; • программирование на языках С, C++
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины "Компьютерная лингвистика" являются формирование у студентов четкого представления места и роли современных систем извлечения данных, освоение теоретических основ моделирования и обработки информации на естественном языке, понимание тенденций развития отрасли и направления перспективных исследований, изучение студентами принципов построения современных информационно-поисковых систем
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь обрабатывать тексты с помощью основных алгоритмов
  • Уметь использовать векторные представления текстов для ответа на запросы
  • Уметь использовать вероятностную модель для поиска информации в тексте
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы обработки текстов
    Задачи компьютерной лингвистики. Предобработка текстов. Токинизация, разбиение на предложения, нормализация, стемминг, лемматизация. Поиск подстроки в строке. Дистанция редактирования, расстояние Левенштейна. Обратный индекс. Предобработка, регуляр-ные выражения. Вычисление дистанции редактирования. Лемматизация Pymorphy2. Применение обратного индекса для поиска в документах
  • Представление текстов в векторном пространстве
    Модель мешка слов, частоты слов, стоп слова, TFIDF, тексты в векторном пространстве. Норма вектора и расстояние в метрическом пространстве. Косинусное расстояние. Разреженные матрицы. Вычисление TF и косинусных расстояний между векторами, сохранение в CSV. Лемматизация Mystem3. Парсинг XML структуры
  • Вероятностная модель извлечения информации
    Вероятностная модель BIRM. Вычисление значений коэффициентов и визуализация функции распределения для релевантных и не релевантных документов коллекции. Анализ качества работы системы извлечения информации. Ошибки первого и второго рода, точность, полнота, F-мера, ROC, AUC. Марковский процесс и N-граммная языковая модель. Перплексия. Вычисление перплексии текста, используя частоты юниграмм. Скрытая марковская модель. OpenCorpora. Задача тегирования
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание №1
  • неблокирующий Домашнее задание №2
  • неблокирующий Домашнее задание №3
  • неблокирующий Экзамен
    Итоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
  • неблокирующий Домашнее задание №1
  • неблокирующий Домашнее задание №2
  • неблокирующий Домашнее задание №3
  • неблокирующий Экзамен
    Итоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Домашнее задание №1 + 0.2 * Домашнее задание №2 + 0.3 * Домашнее задание №3 + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818

Рекомендуемая дополнительная литература

  • Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500
  • Интеллектуальный анализ данных и систем управления бизнес-правилами в телекоммуникациях: Монография / Р.Р. Вейнберг. - Москва : НИЦ ИНФРА-М, 2016. - 173 с.: 60x90 1/16. - (Научная мысль) (Обложка) ISBN 978-5-16-011350-0 - Текст : электронный. - URL: http://znanium.com/catalog/product/520998
  • Информационные системы : учебное пособие / О. Л. Голицына, Н. В. Максимов, И. И. Попов. — 2-е изд. — М. : ФОРУМ : ИНФРА-М, 2018. — 448 с. : ил. — (Высшее образование). - Режим доступа: http://znanium.com/catalog/product/953245
  • Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2018. — 343 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/924699
  • Цифровые методы обработки информации/БорисоваИ.В. - Новосиб.: НГТУ, 2014. - 139 с.: ISBN 978-5-7782-2448-3