• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
14
Апрель

Информационный поиск и извлечение данных

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты

Преподаватель

Программа дисциплины

Аннотация

Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать методы ранжирования
  • Понимать и уметь применять алгоритм word2vec
  • Понимать технологии SemanticWeb
  • Понимать методы измерения семантической близости
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные алгоритмы ранжирования
  • Знать принципы построения современных поисковых систем
  • Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
  • Понимать модель Vector Space Model
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Архитектура и общие принципы работы поисковых систем
  • Vector Space Model
  • Латентно семантический анализ
  • WordNet и SemanticWeb
  • Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
  • Алгоритмы ранжирования на основе топологии сети
Элементы контроля

Элементы контроля

  • неблокирующий Линейная регрессия
    Придумайте 2 числовые характеристики, которые могут описывать объект. Объектом может быть человек или предмет. С их помощью опишите 8 объектов. Так вы получите 8 точек в 2-мерном пространстве. Нарисуйте эти точки на графике. Постройте линейную регрессию для этих признаков. Нарисуйте её на том же графике с точками.
  • неблокирующий Логистическая регрессия
    Обучите логистическую регрессию для классификации текстов на 2 класса. Для каждого класса выведите 30 самых важных слов. На практическом занятии мы использовали набор данных русских отзывов. Возьмите какой-нибудь другой набор данных. Набор данных разделите на тренировочный и тестовый. Размер тестового набора возьмите 20%. Выведите отчёт о классификации (from sklearn.metrics import classification_report) для тестового набора данных.
  • неблокирующий Пространственные вложения
    "Данны координаты 9 точек на плоскости с группированные в 3 группы: [ (-1, -1), (-1.2, -1), (-0.9, -0.9) ], [ (-1, 1), (-1.2, 1), (-0.9, 0.9) ], [ (1, 1), (1.2, 1), (0.9, 0.9) ] Мы хотим построить классификатор вида softmax(Ax), который выдаёт принадлежность точки x c одному из 3х классов, соответсвующих группе. Другими словами на выходе классификатора ожидается вектор из трёх компонет, вида (1,0,0) для 1го класса, (0,1,0) для 2го и для 3го (0,0,1). 1) Найдите матриу A (13 баллов). 2) На какое максимальное число классов можно разбить точки, сгруппированные подобным образом (кучками на плоскости), используя преобразование softmax(Ax) (5 баллов)."
  • неблокирующий Обучение ранжированию
    Возьмите один из наборов данных предназначенных для построения рекомендательных систем и постройте функцию ранжирования используя подход "обучение ранжированю". В качестве набора данных берите, не такой как взяли ваши одногруппники. Разделите на train, test. Оцените значения метрик recall, precision для вашего набора данных на test.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 1 модуль
    0.25 * Пространственные вложения + 0.25 * Линейная регрессия + 0.25 * Логистическая регрессия + 0.25 * Обучение ранжированию
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017

Рекомендуемая дополнительная литература

  • Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
  • Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937