We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Information Search and Data Mining

2021/2022
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Elective course
When:
4 year, 1 module

Instructor

Программа дисциплины

Аннотация

Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать методы ранжирования
  • Понимать и уметь применять алгоритм word2vec
  • Понимать технологии SemanticWeb
  • Понимать методы измерения семантической близости
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные алгоритмы ранжирования
  • Знать принципы построения современных поисковых систем
  • Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
  • Понимать модель Vector Space Model
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Архитектура и общие принципы работы поисковых систем
  • Vector Space Model
  • Латентно семантический анализ
  • WordNet и SemanticWeb
  • Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
  • Алгоритмы ранжирования на основе топологии сети
Элементы контроля

Элементы контроля

  • неблокирующий лабораторная работа "Обучить на корпусе текстов модель word2vec"
  • неблокирующий Самостоятельная работа "Посчитать PageRank для небольшой сети"
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 1 модуль
    0.5 * лабораторная работа "Обучить на корпусе текстов модель word2vec" + 0.5 * Самостоятельная работа "Посчитать PageRank для небольшой сети"
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017

Рекомендуемая дополнительная литература

  • Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
  • Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937

Авторы

  • Пономаренко Александр Александрович