• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Введение в анализ данных

2019/2020
Учебный год
RUS
Обучение ведется на русском языке

Программа дисциплины

Аннотация

Изучение дисциплины «Введение в анализ данных» нацелено на освоение основных методов и алгоритмов анализа данных с применением языка программирования Python.Курс является вторым в майноре «Интеллектуальный анализ данных». Предполагается, что в результате освоения курса студенты будут способны самостоятельно проводить анализ различных наборов данных с использованием языка программирования Python.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать основные методы анализа данных; о месте и ценности методов машинного обучения и разработки данных в современной науке и практической деятельности; основные каналы научной и прикладной информации по анализу данных
  • Уметь использовать освоенные методы анализа данных для обработки конкретных наборов данных, анализировать результаты, делать выводы; формализовать конкретную задачу анализа данных и разработать алгоритм решения
  • Владеть методами программирования, отлаживания и тестирования алгоритмов анализа данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимает концепцию структурированных и не структурированных данных, задачу анализа данных и машинного обучения
  • Знает основные типы данных, этапы предобработки данных, методы разведочного анализа данных
  • Умеет выполнять предобработку данных и разведочный анализ данных с помощью релевантного программного обеспечения
  • Понимает концепцию кластерного анализа данных, концепцию близкости (похожести) объектов
  • Знает основные методы кластерного анализа данных, основные способы измерения расстояния между объектами
  • Знает и умеет использовать программные реализации основных алгоритмов кластерного анализа
  • Понимает концепцию задачи регрессии как задачи машинного обучения
  • Знает основные методы решения задачи регрессии, способы оценки ошибки предсказания
  • Знает и умеет использовать программные реализации методов решения задачи регрессии
  • Понимает концепцию задачи классификации как задачи машинного обучения
  • Знает основные методы решения задачи классификации, способы оценки точности классификации, способы борьбы с переобучением
  • Знает и умеет использовать программные реализации методов решения задачи классификации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Первичный анализ данных
    Объекты и признаки. Числовые, порядковые и номинальные признаки. Преобразование признаков из одной формы в другую. Основные характеристики признака: среднее, разброс. Гистограмма признака. Распределение признака. Зависимость признаков. Корреляции. Влияние зависимостей на анализ данных. Преобразование признаков. Стандартизация.
  • Методы кластеризации
    Формулировка задачи кластеризации. Близость объектов. Расстояние между объектами: Евклидово расстояние, Манхэттенское расстояние, Расстояние Чебышева, Расстояние Хэмминга, Косинусная мера, Расстояние Джаккарда. Расстояние между кластерами: рас-стояние ближайшего соседа, расстояние дальнего соседа, взвешенное среднее расстояние, расстояние между центрами, расстояние Варда. Иерархическая кластеризация и её типы. Дендрограмма. Алгоритм DBSCAN. Алгоритм k-means. Алгоритм Partitioning Around Medoids. Отличие от k-means.
  • Методы предсказания. Регрессия
    Формулировка задачи предсказания. Регрессия как задача аппроксимации. Функционалы ошибки для задачи регрессии: среднеквадратичная ошибка, корень среднеквадратичной ошибки, средняя абсолютная ошибка, средняя абсолютная ошибка в процентах. Коэффициент детерминации. Линейная регрессия. Метод наименьших квадратов. Проблема переобучения и регуляризация. Гребневая регрессия. Метод Лассо. особенности метода Лассо. Метод k-ближайших соседей для задачи регрессии. Метод k ближайших соседей с весами.
  • Методы классификации
    Формулировка задачи классификации. Метод k-ближайших соседей для задачи классификации. Метод k ближайших соседей с весами. Примеры ядер. Вероятностные модели. Логистическая регрессия. Байесовский классификатор. Наивный байесовский классификатор. Метрики качества классификации: accuracy, precision, recall, F-мера, AUC-ROC и AUC-PRC. Матрица ошибок. Кросс-валидация. Решающие деревья. Жадный алгоритм построения дерева. Критерии качества ветвления по одному из признаков: энтропийный критерий, критерий Джини. Случайные леса.
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа №1
  • неблокирующий Контрольная работа №2
  • неблокирующий Лабораторная работа №1
  • неблокирующий Лабораторная работа №2
  • неблокирующий Лабораторная работа №3
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.05 * Контрольная работа №1 + 0.1 * Контрольная работа №2 + 0.1 * Лабораторная работа №1 + 0.15 * Лабораторная работа №2 + 0.1 * Лабораторная работа №3 + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Aggarwal C. Data Mining: The Textbook. Springer International Publishing, 2015. DOI: 10.1007/978-3-319-14142-8

Рекомендуемая дополнительная литература

  • Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.