We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Information Search and Data Mining

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Elective course
When:
4 year, 3 module

Instructor

Программа дисциплины

Аннотация

Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать методы ранжирования
  • Понимать и уметь применять алгоритм word2vec
  • Понимать технологии SemanticWeb
  • Понимать методы измерения семантической близости
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать принципы построения современных поисковых систем
  • Понимать модель Vector Space Model
  • Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
  • Знать основные алгоритмы ранжирования
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Архитектура и общие принципы работы поисковых систем
    Архитектура и общие принципы работы поисковых систем: краулеры, процесс индексирования, ранжирование
  • Vector Space Model
    Vector Space Model. Мера семантической близости на основе косинуса угла между векторами частот слов
  • Латентно семантический анализ
    Латентно семантический анализ. Сингулярное разложение матриц. Модель скрытых тем. Физическая интерпретация сингулярного разложения. Понижение размерности с минимальной потерей информации
  • WordNet и SemanticWeb
    WordNet. Меры семантической близости слов. Базовые смысловые единицы – синсеты. Различные типы связей между синсетами. Меры близости основанные на структуре сети WordNet
  • Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
  • Алгоритмы ранжирования на основе топологии сети
    Ранжирование результатов запроса на основе топологии графа WEB. Понятие важности страницы. Алгоритм Page-Rank. Алгоритм Hits.
Элементы контроля

Элементы контроля

  • неблокирующий лабораторная работа "Обучить на корпусе текстов модель word2vec"
  • неблокирующий Самостоятельная работа "Посчитать PageRank для небольшой сети"
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * лабораторная работа "Обучить на корпусе текстов модель word2vec" + 0.5 * Самостоятельная работа "Посчитать PageRank для небольшой сети"
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017

Рекомендуемая дополнительная литература

  • Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
  • Ингерсолл Грант С., Мортон Томас С., Фэррис Эндрю Л. - Обработка неструктурированных текстов. Поиск, организация и манипулирование - Издательство "ДМК Пресс" - 2015 - 414с. - ISBN: 978-5-97060-144-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/73069
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - 236с. - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937