Кто читает:: Факультет подготовки, переподготовки и повышения квалификации специалистов (Нижний Новгород)

Статус:: Курс по выбору

Когда читается:: 2-й курс, 3 модуль

Дополнительные материалы в LMS Задать вопрос

Аннотация

Целью освоения дисциплины «Анализ данных» является обучить студентов применять основные модели и методы математической статистики для обработки реальных социально-экономических данных. Основной задачей дисциплины «Анализ данных» является изучение основных методов анализа бизнес-информации, технологий и инструментальных средств интеллектуального анализа данных.

Цель освоения дисциплины

Целями освоения дисциплины «Анализ данных» является знакомство с основными понятиями анализа данных, развитие навыков анализа данных, овладение основными алгоритмами анализа данных.

Планируемые результаты обучения

Владеть базовыми знаниями для освоения курса
Уметь вычислять SVD разложение и переходить в пространство меньшей размерности с оценкой ошибки
Уметь находить кластерные структуры в данных с помощью различных методов
Уметь выбирать и использовать метод классификации для конкретных наборов данных. Выполнять сравнение методов классификации

Содержание учебной дисциплины

Введение
Введение. Основные задачи анализа данных. Данные. Типы данных. Анализ данных. Классические задачи анализа данных: снижение раз-мерности, кластеризация, классификация. Необходимые понятия мат анализа и линейной алгебры Векторы, матрицы, собственные числа, производные, градиент Необходимые понятия теории вероятности и мат статистики Вероятность, условная вероятность, теорема Байеса, мат ожидание, дисперсия, корреляция, виды распределений
Методы снижения размерности. Сингулярное разложение и метод главных компонент
Проблема уменьшения размерности. Задачи наилучшей аппроксимации матрицы заданной размерности матрицами той же размерности фиксированного ранга. Выбор матричной нормы. SVD разложение. Сингулярные числа матрицы. Теорема Шмидта – Мирского (Эккарта-Юнга). Оценка погрешности в l2 матричной норме и в норме Фробениуса. Метод главных компонент как вариант SVD разложения. Вычисление главных компонент. QR - алгоритм. Матрица нагрузок как матрица корреляций наблюдений и новых факторов. Погрешность аппроксимации как изменение общей вариации данных. Проблема выбора числа главных компонент. Анализ вариации в методе главных компонент. Интерпретация главных компонент. Поиск структуры в матрице нагрузок
Обучение без учителя (методы кластеризации)
Проблема разбиения объектов на группы по степени близости объектов в группах. Расстояния в пространстве объектов. Расстояния между кластерами: метод ближайшего соседа; метод наиболее удаленных соседей; метод попарных средних; метод взвешенных попарных средних; центроидный метод; взвешенный центроидный метод; метод Варда. Таблица расстояний между объектами. Алгоритмы иерархической кластеризации (снизу вверх и сверху вниз). Графическое представление иерархических алгоритмов кластеризации. Дендрограмы. Задача кластеризации как задача дискретно-непрерывной оптимизации (разбиения и центры). Алгоритм k-means. Достоинства и недостатки, особенности алгоритма для различных расстояний. Incremental k-means. Проблема останова. Алгоритм РАМ (partition around medoids). Сравнение с алгоритмом k-means. Генетические алгоритмы кластеризации. Графы данных. Алгоритмы кластеризации на графах: MST, DBSCAN
Обучение с учителем
Линейная регрессия. Методы регрессионного анализа (МНК). Множественная и полиномиальная регрессии. Регуляризация. Логистическая регрессия, мультиклассовая регрессия, softmax, градиентный спуск. Методы классификации. Простейшие классификаторы (NN-классификатор, ближний сосед, k-NN классификатор). Оценка качества классификаторов: обучающая выборка, тестовая выборка, ошибки 0-1 классификатора. Анализ вариаций. Отношение Фишера, как мера возможности разделения данных на группы (возможность классификации). Задача о «наилучшей» проекции (наилучшая возможность разделения данных после проекции). Максимальное значение отношения двух квадратичных форм. Дискриминантная функция Фишера. Классификатор на основе дискриминантной функции Фишера. Дискриминантное правило Фишера, как частный случай классификации по методу линейной регрессии. Метод опорных векторов (SVM), как линейный классификатор. Правило классификации по методу опорных векторов. Задача оптимизации для поиска разделяющей гиперплоскости. Вычисление опорных векторов. Деревья решений. Описание общего под-хода. Классификаторы линейной регрессии, Фишера и метода опорных векторов как простейшие деревья решений. Достоинства и недостатки деревьев решений в сравнении с линейными классификаторами. Правила разделения, основанные на значениях одного признака (случай дискретных значений признака). Меры неопределенности: ROC-кривая, индекс Джини, информационная энтропия. Прирост информации (information gain). По-строение дерева решений по правилу разбиения по одному из признаков (дискретный на-бор значений). Критерий останова (стоп критерий). Обработка выбросов в данные. Z-score, Interquartile range. Оценка распределения. Обработка выбросов с помощью алгоритмов классификации (DBSCAN, K-means, Isolation forest, лог регрессия). Under-sampling, Over-samplimg

Элементы контроля

Контрольная работа
Экзамен
Контрольная работа
Экзамен

Промежуточная аттестация

Промежуточная аттестация (3 модуль)
0.7 * Контрольная работа + 0.3 * Экзамен

Бакалаврская программа «Программная инженерия (очно-заочное обучение)»

Контакты:

Анализ данных

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература