• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ данных

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
9
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 3 модуль

Программа дисциплины

Аннотация

Целью освоения дисциплины «Анализ данных» является обучить студентов применять основные модели и методы математической статистики для обработки реальных социально-экономических данных. Основной задачей дисциплины «Анализ данных» является изучение основных методов анализа бизнес-информации, технологий и инструментальных средств интеллектуального анализа данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Анализ данных» является знакомство с основными понятиями анализа данных, развитие навыков анализа данных, овладение основными алгоритмами анализа данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть базовыми знаниями для освоения курса
  • Уметь вычислять SVD разложение и переходить в пространство меньшей размерности с оценкой ошибки
  • Уметь находить кластерные структуры в данных с помощью различных методов
  • Уметь выбирать и использовать метод классификации для конкретных наборов данных. Выполнять сравнение методов классификации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
    Введение. Основные задачи анализа данных. Данные. Типы данных. Анализ данных. Классические задачи анализа данных: снижение раз-мерности, кластеризация, классификация. Необходимые понятия мат анализа и линейной алгебры Векторы, матрицы, собственные числа, производные, градиент Необходимые понятия теории вероятности и мат статистики Вероятность, условная вероятность, теорема Байеса, мат ожидание, дисперсия, корреляция, виды распределений
  • Методы снижения размерности. Сингулярное разложение и метод главных компонент
    Проблема уменьшения размерности. Задачи наилучшей аппроксимации матрицы заданной размерности матрицами той же размерности фиксированного ранга. Выбор матричной нормы. SVD разложение. Сингулярные числа матрицы. Теорема Шмидта – Мирского (Эккарта-Юнга). Оценка погрешности в l2 матричной норме и в норме Фробениуса. Метод главных компонент как вариант SVD разложения. Вычисление главных компонент. QR - алгоритм. Матрица нагрузок как матрица корреляций наблюдений и новых факторов. Погрешность аппроксимации как изменение общей вариации данных. Проблема выбора числа главных компонент. Анализ вариации в методе главных компонент. Интерпретация главных компонент. Поиск структуры в матрице нагрузок
  • Обучение без учителя (методы кластеризации)
    Проблема разбиения объектов на группы по степени близости объектов в группах. Расстояния в пространстве объектов. Расстояния между кластерами: метод ближайшего соседа; метод наиболее удаленных соседей; метод попарных средних; метод взвешенных попарных средних; центроидный метод; взвешенный центроидный метод; метод Варда. Таблица расстояний между объектами. Алгоритмы иерархической кластеризации (снизу вверх и сверху вниз). Графическое представление иерархических алгоритмов кластеризации. Дендрограмы. Задача кластеризации как задача дискретно-непрерывной оптимизации (разбиения и центры). Алгоритм k-means. Достоинства и недостатки, особенности алгоритма для различных расстояний. Incremental k-means. Проблема останова. Алгоритм РАМ (partition around medoids). Сравнение с алгоритмом k-means. Генетические алгоритмы кластеризации. Графы данных. Алгоритмы кластеризации на графах: MST, DBSCAN
  • Обучение с учителем
    Линейная регрессия. Методы регрессионного анализа (МНК). Множественная и полиномиальная регрессии. Регуляризация. Логистическая регрессия, мультиклассовая регрессия, softmax, градиентный спуск. Методы классификации. Простейшие классификаторы (NN-классификатор, ближний сосед, k-NN классификатор). Оценка качества классификаторов: обучающая выборка, тестовая выборка, ошибки 0-1 классификатора. Анализ вариаций. Отношение Фишера, как мера возможности разделения данных на группы (возможность классификации). Задача о «наилучшей» проекции (наилучшая возможность разделения данных после проекции). Максимальное значение отношения двух квадратичных форм. Дискриминантная функция Фишера. Классификатор на основе дискриминантной функции Фишера. Дискриминантное правило Фишера, как частный случай классификации по методу линейной регрессии. Метод опорных векторов (SVM), как линейный классификатор. Правило классификации по методу опорных векторов. Задача оптимизации для поиска разделяющей гиперплоскости. Вычисление опорных векторов. Деревья решений. Описание общего под-хода. Классификаторы линейной регрессии, Фишера и метода опорных векторов как простейшие деревья решений. Достоинства и недостатки деревьев решений в сравнении с линейными классификаторами. Правила разделения, основанные на значениях одного признака (случай дискретных значений признака). Меры неопределенности: ROC-кривая, индекс Джини, информационная энтропия. Прирост информации (information gain). По-строение дерева решений по правилу разбиения по одному из признаков (дискретный на-бор значений). Критерий останова (стоп критерий). Обработка выбросов в данные. Z-score, Interquartile range. Оценка распределения. Обработка выбросов с помощью алгоритмов классификации (DBSCAN, K-means, Isolation forest, лог регрессия). Under-sampling, Over-samplimg
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.7 * Контрольная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Ford, W. (2015). Numerical Linear Algebra with Applications : Using MATLAB (Vol. First edition). London: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=485990

Рекомендуемая дополнительная литература

  • Райгородский А.М. - Вероятность и алгебра в комбинаторике - Московский центр непрерывного математического образования - 2008 - 48с. - ISBN: 978-5-94057-384-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/9400