• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Информационный поиск и извлечение данных

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты

Преподаватель

Программа дисциплины

Аннотация

Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать методы ранжирования
  • Понимать и уметь применять алгоритм word2vec
  • Понимать технологии SemanticWeb
  • Понимать методы измерения семантической близости
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать принципы построения современных поисковых систем
  • Понимать модель Vector Space Model
  • Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
  • Знать основные алгоритмы ранжирования
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Архитектура и общие принципы работы поисковых систем
    Архитектура и общие принципы работы поисковых систем: краулеры, процесс индексирования, ранжирование
  • Vector Space Model
    Vector Space Model. Мера семантической близости на основе косинуса угла между векторами частот слов
  • Латентно семантический анализ
    Латентно семантический анализ. Сингулярное разложение матриц. Модель скрытых тем. Физическая интерпретация сингулярного разложения. Понижение размерности с минимальной потерей информации
  • WordNet и SemanticWeb
    WordNet. Меры семантической близости слов. Базовые смысловые единицы – синсеты. Различные типы связей между синсетами. Меры близости основанные на структуре сети WordNet
  • Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
  • Алгоритмы ранжирования на основе топологии сети
    Ранжирование результатов запроса на основе топологии графа WEB. Понятие важности страницы. Алгоритм Page-Rank. Алгоритм Hits.
Элементы контроля

Элементы контроля

  • неблокирующий лабораторная работа "Обучить на корпусе текстов модель word2vec"
  • неблокирующий Самостоятельная работа "Посчитать PageRank для небольшой сети"
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * лабораторная работа "Обучить на корпусе текстов модель word2vec" + 0.5 * Самостоятельная работа "Посчитать PageRank для небольшой сети"
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017

Рекомендуемая дополнительная литература

  • Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
  • Ингерсолл Грант С., Мортон Томас С., Фэррис Эндрю Л. - Обработка неструктурированных текстов. Поиск, организация и манипулирование - Издательство "ДМК Пресс" - 2015 - 414с. - ISBN: 978-5-97060-144-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/73069
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - 236с. - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937