We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis and Data Mining

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Compulsory course
When:
3 year, 1, 2 module

Instructor


Grechikhin, Ivan

Программа дисциплины

Аннотация

Настоящая дисциплина относится к профессиональному циклу дисциплин, обеспечивающих подготовку бакалавра. Изучение данной дисциплины базируется на знании, полученных при освоении дисциплин: линейная алгебра и геометрия, математический анализ, дискретная ма-тематика, математическая статистика, программировании. Полученные знания будут ис-пользованы при освоении дисциплин профессионального цикла, подготовке курсовых и вы-пускных квалификационных работ.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Анализ и разработка данных» является получение высшего профессионально профилированного (на уровне бакалавра) образования, позволяющего выпускнику успешно работать в избранной сфере деятельности, обладать универсальными и предметно-специализированными компетенциями, способствующими его социальной мо-бильности и устойчивости на рынке труда.
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимание основ работы с данными
  • Изучение техники сокращения размерности
  • Знание задачи и алгоритмов кластеризации
  • Ознакомление с задачами регресии и способами их решения
  • Ознакомление с задачей классификации
  • Знание простейших алгоритмов классификации
  • Умение готовить данные для обучения и поддерживать процесс обучения
  • Знание алгоритмов классификации на основе ансамблей простейших алгоритмов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в анализ данных. Описательные статистики.
    Данная тема посвящена изучению первых методов анализа данных, связанных с первым ознакомлением с данными: использование описательных статистик для описания признаков, работа с выбросами и пропущенными значениями, стандартизация и нормализация данных.
  • Анализ главных компонент для выявления скрытых факторов и сокращения размерности
    В этой теме разбирается техника анализа главных компонент, которая выявляет как скрытые связи и паттерны в данных, так и позволяет сократить размерность данных без большой потери информации
  • Кластеризация
    В этой теме рассматривается задача кластеризации и различные алгоритмы её решения
  • Регрессия. Алгоритмы регрессии.
    В этой теме разбирается задача регрессии - как предсказания вещественной целевой переменной. Рассматриваются стандартные алгоритмы линейной регрессии, включая ridge и lasso регуляризации.
  • Задача классификации. Простейшие алгоритмы классификации.
    В этой теме рассматриваются самые простые алгоритмы для решения задачи классификации: K ближайших соседей (KNN), наивный байес, логистическая регрессия, дерево решений
  • Алгоритмы классификации - ансамбли
    В этой теме рассматриваются алгоритмы, представляющие из себя сумму-набор простейших классификаторов: Случайный лес, Boosting, Bagging.
Элементы контроля

Элементы контроля

  • блокирующий лабораторные работы
    5 лабораторных работ
  • неблокирующий экзамен
  • блокирующий лабораторные работы
    5 лабораторных работ
  • неблокирующий экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.5 * лабораторные работы + 0.5 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Статистические методы анализа данных : учебник / Л.И. Ниворожкина, С.В. Арженовский, А.А. Рудяга [и др.] ; под общ. ред. д-ра экон. наук, проф. Л.И. Ниворожкиной. — М. : РИОР : ИНФРА-М, 2016. — 333 с. — (Высшее образование: Бакалавриат). — www.dx.doi.org/10.12737/21064. - Режим доступа: http://znanium.com/catalog/product/556760
  • Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов и др. - М.: НИЦ ИНФРА-М, 2015. - 890 с.: 60x90 1/16 ISBN 978-5-16-103267-1 (online) - Режим доступа: http://znanium.com/catalog/product/515227

Рекомендуемая дополнительная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705