We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Research Seminar "Methods of Data Mining"

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Compulsory course
When:
2 year, 1, 2 module

Instructors


Gruzdev, Alexey S.


Krylov, Vladimir

Программа дисциплины

Аннотация

Научно-исследовательский семинар представляет собой комплекс аудиторных и самостоятельных занятий, на которых участники знакомятся с последними достижениями науки о данных (Data Science) и изучают как разработать программные реализации по избранным темам. Главной темой семинаров 2019-2020 года является "Топологический анализ данных" (Topological Data Analysis-TDA).
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью семинара является вовлечение студентов в реальный процесс изучения новых результатов в науке о данных и процесса имплементации новых технологий в реальную практическую деятельность
Планируемые результаты обучения

Планируемые результаты обучения

  • Ознакомление с конвейером топологического анализа и понимание основных топологических характеристик облака точек.
  • Ознакомление с существом и особенностями топологического анализа данных и его примененений. понимание отличий топологических представлений данных от метрических моделей
  • Знать основные инструментальные средства топологического анализа данных. Научиться выполнять топологический анализ на простых примерах.
  • Получить практические навыки (умение) выполнять проект анализа текстов на естественном языке с применением топологического анализа данных
  • Получить практические навыки (умение) выполнять проект анализа 2D и 3D изображений с применением топологического анализа данных
  • Ознакомление с перспективами использования топологических моделей данных для традиционных задач нейронных сетей - классификации и поиска аномалий
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Знакомство с терминологией и приложениями топологического анализа данных.
    Представление данных в метрическом пространстве. Метрики. Изометрия. Что такое топологические пространства. Примеры. Гомотопии. Основные понятия вычислительной топологии. Представление данных в топологическом пространстве.
  • Программные билиотеки топологического анализа данных.
    Поиск и ознакомление с работой эффективных библиотек топологического анализа. Практическая работа с библиотеками на примерах известных наборов данных. Базовые библиотеки: Gudhi, Keppler-Mapper,
  • Топологический анализ текстовых данных
    Рассматривается на сквозном примере анализа юридических и новостных текстов, На первом шаге конвейера производится эмбеддинг предложений с помощью нескольких известных моделей6 BERT, ELMO, USE, Далее образованное облако точек передается следующим ступеням обработки. Проекция, построение смплициального комплекса Чеха и кластеризация. Вычисляются персистентные диаграммы и кривая Бетти.
  • Топологический анализ изображений
    Рассматривается задача трансформации изображений в графы и вычисление набора тпологических характеристик исходного трех или двумерного объекта. Строится процесс фильтрации точек изображеения и симплициального комплекса.
  • Обучаемые модели классификации топологических структур.
    Рассматривается подход к построению обучаемых моделей классификации графов, в частности сверточная графовая нейронная сеть - CGN . Анализируется процесс распространения в такой сети и качество классификации графов.
  • Технологии топологического анализа.
    Топологические симплексы и комплексы. Фильтрация и персистентные гомологии. Комплекс Чеха и и Ридса. Вычисление основных топологических характеристик по облаку точек в метрическом пространстве: числа Бетти персистентная диаграмма, Иллюстрация вычисления персистентных характеристик
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий доклад
  • неблокирующий Экзамен
  • неблокирующий доклад
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.3 * доклад + 0.7 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Топология для младшекурсников, [учебник], 159 с., Васильев, В. А., 2014

Рекомендуемая дополнительная литература

  • Вычислительная топология, учебник, 213 с., Яковлев, Е. И., 2005