• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis and Data Mining

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Compulsory course
When:
3 year, 1, 2 module

Instructor


Grechikhin, Ivan

Программа дисциплины

Аннотация

Настоящая дисциплина относится к профессиональному циклу дисциплин, обеспечивающих подготовку бакалавра. Изучение данной дисциплины базируется на знании, полученных при освоении дисциплин: линейная алгебра и геометрия, математический анализ, дискретная ма-тематика, математическая статистика, программировании. Полученные знания будут ис-пользованы при освоении дисциплин профессионального цикла, подготовке курсовых и вы-пускных квалификационных работ.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Анализ и разработка данных» является получение высшего профессионально профилированного (на уровне бакалавра) образования, позволяющего выпускнику успешно работать в избранной сфере деятельности, обладать универсальными и предметно-специализированными компетенциями, способствующими его социальной мо-бильности и устойчивости на рынке труда.
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимание основ работы с данными
  • Изучение техники сокращения размерности
  • Знание задачи и алгоритмов кластеризации
  • Ознакомление с задачами регресии и способами их решения
  • Ознакомление с задачей классификации
  • Знание простейших алгоритмов классификации
  • Умение готовить данные для обучения и поддерживать процесс обучения
  • Знание алгоритмов классификации на основе ансамблей простейших алгоритмов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в анализ данных. Описательные статистики.
    Данная тема посвящена изучению первых методов анализа данных, связанных с первым ознакомлением с данными: использование описательных статистик для описания признаков, работа с выбросами и пропущенными значениями, стандартизация и нормализация данных.
  • Анализ главных компонент для выявления скрытых факторов и сокращения размерности
    В этой теме разбирается техника анализа главных компонент, которая выявляет как скрытые связи и паттерны в данных, так и позволяет сократить размерность данных без большой потери информации
  • Кластеризация
    В этой теме рассматривается задача кластеризации и различные алгоритмы её решения
  • Регрессия. Алгоритмы регрессии.
    В этой теме разбирается задача регрессии - как предсказания вещественной целевой переменной. Рассматриваются стандартные алгоритмы линейной регрессии, включая ridge и lasso регуляризации.
  • Задача классификации. Простейшие алгоритмы классификации.
    В этой теме рассматриваются самые простые алгоритмы для решения задачи классификации: K ближайших соседей (KNN), наивный байес, логистическая регрессия, дерево решений
  • Алгоритмы классификации - ансамбли
    В этой теме рассматриваются алгоритмы, представляющие из себя сумму-набор простейших классификаторов: Случайный лес, Boosting, Bagging.
Элементы контроля

Элементы контроля

  • блокирующий лабораторные работы
    5 лабораторных работ
  • неблокирующий экзамен
  • блокирующий лабораторные работы
    5 лабораторных работ
  • неблокирующий экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.5 * лабораторные работы + 0.5 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Статистические методы анализа данных : учебник / Л.И. Ниворожкина, С.В. Арженовский, А.А. Рудяга [и др.] ; под общ. ред. д-ра экон. наук, проф. Л.И. Ниворожкиной. — М. : РИОР : ИНФРА-М, 2016. — 333 с. — (Высшее образование: Бакалавриат). — www.dx.doi.org/10.12737/21064. - Режим доступа: http://znanium.com/catalog/product/556760
  • Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов и др. - М.: НИЦ ИНФРА-М, 2015. - 890 с.: 60x90 1/16 ISBN 978-5-16-103267-1 (online) - Режим доступа: http://znanium.com/catalog/product/515227

Рекомендуемая дополнительная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705