• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Книга
Integral Robot Technologies and Speech Behavior

Kharlamov A. A., Pantiukhin D., Borisov V. et al.

Newcastle upon Tyne: Cambridge Scholars Publishing, 2024.

Глава в книге
Neural Networks for Speech Synthesis of Voice Assistants and Singing Machines

Pantiukhin D.

In bk.: Integral Robot Technologies and Speech Behavior. Newcastle upon Tyne: Cambridge Scholars Publishing, 2024. Ch. 9. P. 281-296.

Препринт
DAREL: Data Reduction with Losses for Training Acceleration of Real and Hypercomplex Neural Networks

Demidovskij A., Трутнев А. И., Тугарев А. М. et al.

NeurIPS 2023 Workshop. ZmuLcqwzkl. OpenReview, 2023

Информационный поиск и извлечение данных

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты

Преподаватель

Программа дисциплины

Аннотация

Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать методы ранжирования
  • Понимать и уметь применять алгоритм word2vec
  • Понимать технологии SemanticWeb
  • Понимать методы измерения семантической близости
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать принципы построения современных поисковых систем
  • Понимать модель Vector Space Model
  • Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
  • Знать основные алгоритмы ранжирования
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Архитектура и общие принципы работы поисковых систем
    Архитектура и общие принципы работы поисковых систем: краулеры, процесс индексирования, ранжирование
  • Vector Space Model
    Vector Space Model. Мера семантической близости на основе косинуса угла между векторами частот слов
  • Латентно семантический анализ
    Латентно семантический анализ. Сингулярное разложение матриц. Модель скрытых тем. Физическая интерпретация сингулярного разложения. Понижение размерности с минимальной потерей информации
  • WordNet и SemanticWeb
    WordNet. Меры семантической близости слов. Базовые смысловые единицы – синсеты. Различные типы связей между синсетами. Меры близости основанные на структуре сети WordNet
  • Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
  • Алгоритмы ранжирования на основе топологии сети
    Ранжирование результатов запроса на основе топологии графа WEB. Понятие важности страницы. Алгоритм Page-Rank. Алгоритм Hits.
Элементы контроля

Элементы контроля

  • неблокирующий лабораторная работа "Обучить на корпусе текстов модель word2vec"
  • неблокирующий Самостоятельная работа "Посчитать PageRank для небольшой сети"
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * лабораторная работа "Обучить на корпусе текстов модель word2vec" + 0.5 * Самостоятельная работа "Посчитать PageRank для небольшой сети"
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017

Рекомендуемая дополнительная литература

  • Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
  • Ингерсолл Грант С., Мортон Томас С., Фэррис Эндрю Л. - Обработка неструктурированных текстов. Поиск, организация и манипулирование - Издательство "ДМК Пресс" - 2015 - 414с. - ISBN: 978-5-97060-144-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/73069
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - 236с. - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937