• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
14
Апрель

Анализ данных

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты

Программа дисциплины

Аннотация

Изучение дисциплины «Анализ данных» базируется на следующих дисциплинах: - Математический анализ; - Геометрия и алгебра; - Дискретная математика; - Теория вероятности и математическая статистика. В результате освоения дисциплины студент должен: знать: - основные понятия анализа данных; уметь: - анализировать данные, выбирать адекватные методы анализа; владеть: - навыками применения основных алгоритмов анализа данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Анализ данных» является знакомство с основными понятиями анализа данных, развитие навыков анализа данных, овладение основными ал-горитмами анализа данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть базовыми знаниями для освоения курса
  • Уметь вычислять SVD разложение и переходить в пространство меньшей размерности с оценкой ошибки
  • Уметь находить кластерные структуры в данных с помощью различных методов
  • Уметь выбирать и использовать метод классификации для конкретных наборов данных. Выполнять сравнение методов классификации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    Введение. Основные задачи анализа данных. Данные. Типы данных. Анализ данных. Классические задачи анализа данных: снижение раз-мерности, кластеризация, классификация. Необходимые понятия мат анализа и линейной алгебры Векторы, матрицы, собственные числа, производные, градиент Необходимые понятия теории вероятности и мат статистики Вероятность, условная вероятность, теорема Байеса, мат ожидание, дисперсия, корреляция, виды распределений
  • Методы снижения размерности. Сингулярное разложение и метод главных компонент
    Проблема уменьшения размерности. Задачи наилучшей аппроксимации матрицы заданной размерности матрицами той же размерности фиксированного ранга. Выбор матричной нормы. SVD разложение. Сингулярные числа матрицы. Теорема Шмидта – Мирского (Эккарта-Юнга). Оценка погрешности в l2 матричной норме и в норме Фробениуса. Метод главных компонент как вариант SVD разложения. Вычисление главных компонент. QR - алгоритм. Матрица нагрузок как матрица корреляций наблюдений и новых факторов. Погрешность аппроксимации как изменение общей вариации данных. Проблема выбора числа главных компонент. Анализ вариации в методе главных компонент. Интерпретация главных компонент. Поиск структуры в матрице нагрузок
  • Обучение без учителя (методы кластеризации)
    Проблема разбиения объектов на группы по степени близости объектов в группах. Расстояния в пространстве объектов. Расстояния между кластерами: метод ближайшего соседа; метод наиболее удаленных соседей; метод попарных средних; метод взвешенных попарных средних; центроидный метод; взвешенный центроидный метод; метод Варда. Таблица расстояний между объектами. Алгоритмы иерархической кластеризации (снизу вверх и сверху вниз). Графическое представление иерархических алгоритмов кластеризации. Дендрограмы. Задача кластеризации как задача дискретно-непрерывной оптимизации (разбиения и центры). Алгоритм k-means. Достоинства и недостатки, особенности алгоритма для различных расстояний. Incremental k-means. Проблема останова. Алгоритм РАМ (partition around medoids). Сравнение с алгоритмом k-means. Генетические алгоритмы кластеризации. Графы данных. Алгоритмы кластеризации на графах: MST, DBSCAN
  • Обучение с учителем
    Линейная регрессия. Методы регрессионного анализа (МНК). Множественная и полиномиальная регрессии. Регуляризация. Логистическая регрессия, мультиклассовая регрессия, softmax, градиентный спуск. Методы классификации. Простейшие классификаторы (NN-классификатор, ближний сосед, k-NN классификатор). Оценка качества классификаторов: обучающая выборка, тестовая выборка, ошибки 0-1 классификатора. Анализ вариаций. Отношение Фишера, как мера возможности разделения данных на группы (возможность классификации). Задача о «наилучшей» проекции (наилучшая возможность разделения данных после проекции). Максимальное значение отношения двух квадратичных форм. Дискриминантная функция Фишера. Классификатор на основе дискриминантной функции Фишера. Дискриминантное правило Фишера, как частный случай классификации по методу линейной регрессии. Метод опорных векторов (SVM), как линейный классификатор. Правило классификации по методу опорных векторов. Задача оптимизации для поиска разделяющей гиперплоскости. Вычисление опорных векторов. Деревья решений. Описание общего под-хода. Классификаторы линейной регрессии, Фишера и метода опорных векторов как простейшие деревья решений. Достоинства и недостатки деревьев решений в сравнении с линейными классификаторами. Правила разделения, основанные на значениях одного признака (случай дискретных значений признака). Меры неопределенности: ROC-кривая, индекс Джини, информационная энтропия. Прирост информации (information gain). По-строение дерева решений по правилу разбиения по одному из признаков (дискретный на-бор значений). Критерий останова (стоп критерий). Обработка выбросов в данные. Z-score, Interquartile range. Оценка распределения. Обработка выбросов с помощью алгоритмов классификации (DBSCAN, K-means, Isolation forest, лог регрессия). Under-sampling, Over-samplimg
Элементы контроля

Элементы контроля

  • неблокирующий самостоятельная работа
  • неблокирующий письменный экзамен
    Экзамен проводится в письменной форме с использованием асинхронного прокторинга. Экзамен проводится на платформе MS Teams (https://teams.microsoft.com), прокторинг на платформе Экзамус (https://hse.student.examus.net). К экзамену необходимо подключиться за 15 минут. На платформе Экзамус доступно тестирование системы. Компьютер студента должен удовлетворять следующим требованиям: https://elearning.hse.ru/data/2020/05/07/1544135594/Технические%20требования%20к%20ПК%20студента.pdf) Для участия в экзамене студент обязан: заранее зайти на платформу прокторинга, провести тест системы, включить камеру и микрофон, подтвердить личность. Во время экзамена студентам запрещено: общаться (в социальных сетях, с людьми в комнате), списывать. Кратковременным нарушением связи во время экзамена считается прерывание связи до 10 минут. Долговременным нарушением связи во время экзамена считается прерывание связи 10 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
  • неблокирующий Лабораторная работа № 1
  • неблокирующий Лабораторная работа № 2
  • неблокирующий Лабораторная работа № 3
  • неблокирующий Контрольная работа № 1
  • неблокирующий Контрольная работа № 2
  • неблокирующий Контрольная работа № 3
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.13 * Контрольная работа № 1 + 0.13 * Контрольная работа № 2 + 0.14 * Контрольная работа № 3 + 0.13 * Лабораторная работа № 1 + 0.13 * Лабораторная работа № 2 + 0.14 * Лабораторная работа № 3 + 0.2 * письменный экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Ford, W. (2015). Numerical Linear Algebra with Applications : Using MATLAB (Vol. First edition). London: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=485990

Рекомендуемая дополнительная литература

  • Райгородский А.М. - Вероятность и алгебра в комбинаторике - Московский центр непрерывного математического образования - 2008 - 48с. - ISBN: 978-5-94057-384-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/9400