• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Книга
Integral Robot Technologies and Speech Behavior

Kharlamov A. A., Pantiukhin D., Borisov V. et al.

Newcastle upon Tyne: Cambridge Scholars Publishing, 2024.

Глава в книге
Neural Networks for Speech Synthesis of Voice Assistants and Singing Machines

Pantiukhin D.

In bk.: Integral Robot Technologies and Speech Behavior. Newcastle upon Tyne: Cambridge Scholars Publishing, 2024. Ch. 9. P. 281-296.

Препринт
DAREL: Data Reduction with Losses for Training Acceleration of Real and Hypercomplex Neural Networks

Demidovskij A., Трутнев А. И., Тугарев А. М. et al.

NeurIPS 2023 Workshop. ZmuLcqwzkl. OpenReview, 2023

Информационный поиск и извлечение данных

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты

Преподаватель

Программа дисциплины

Аннотация

Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать методы ранжирования
  • Понимать и уметь применять алгоритм word2vec
  • Понимать технологии SemanticWeb
  • Понимать методы измерения семантической близости
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные алгоритмы ранжирования
  • Знать принципы построения современных поисковых систем
  • Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
  • Понимать модель Vector Space Model
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Архитектура и общие принципы работы поисковых систем
  • Vector Space Model
  • Латентно семантический анализ
  • WordNet и SemanticWeb
  • Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
  • Алгоритмы ранжирования на основе топологии сети
Элементы контроля

Элементы контроля

  • неблокирующий Линейная регрессия
    Придумайте 2 числовые характеристики, которые могут описывать объект. Объектом может быть человек или предмет. С их помощью опишите 8 объектов. Так вы получите 8 точек в 2-мерном пространстве. Нарисуйте эти точки на графике. Постройте линейную регрессию для этих признаков. Нарисуйте её на том же графике с точками.
  • неблокирующий Логистическая регрессия
    Обучите логистическую регрессию для классификации текстов на 2 класса. Для каждого класса выведите 30 самых важных слов. На практическом занятии мы использовали набор данных русских отзывов. Возьмите какой-нибудь другой набор данных. Набор данных разделите на тренировочный и тестовый. Размер тестового набора возьмите 20%. Выведите отчёт о классификации (from sklearn.metrics import classification_report) для тестового набора данных.
  • неблокирующий Пространственные вложения
    "Данны координаты 9 точек на плоскости с группированные в 3 группы: [ (-1, -1), (-1.2, -1), (-0.9, -0.9) ], [ (-1, 1), (-1.2, 1), (-0.9, 0.9) ], [ (1, 1), (1.2, 1), (0.9, 0.9) ] Мы хотим построить классификатор вида softmax(Ax), который выдаёт принадлежность точки x c одному из 3х классов, соответсвующих группе. Другими словами на выходе классификатора ожидается вектор из трёх компонет, вида (1,0,0) для 1го класса, (0,1,0) для 2го и для 3го (0,0,1). 1) Найдите матриу A (13 баллов). 2) На какое максимальное число классов можно разбить точки, сгруппированные подобным образом (кучками на плоскости), используя преобразование softmax(Ax) (5 баллов)."
  • неблокирующий Обучение ранжированию
    Возьмите один из наборов данных предназначенных для построения рекомендательных систем и постройте функцию ранжирования используя подход "обучение ранжированю". В качестве набора данных берите, не такой как взяли ваши одногруппники. Разделите на train, test. Оцените значения метрик recall, precision для вашего набора данных на test.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 1 модуль
    0.25 * Пространственные вложения + 0.25 * Линейная регрессия + 0.25 * Логистическая регрессия + 0.25 * Обучение ранжированию
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017

Рекомендуемая дополнительная литература

  • Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
  • Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937