• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Intellectual Data Analysis

2018/2019
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Information Systems and Technologies (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Elective course
When:
1 year, 3, 4 module

Instructor


Петровичева Анна Львовна

Программа дисциплины

Аннотация

Курс нацелен на овладение студентами моделями и методами интеллектуального анализа данных и машинного обучения в задачах поиска информации, обработки и анализа данных, а также приобретение навыков исследователя данных (data scientist) и разработчика математических моделей, методов и алгоритмов анализа данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Интеллектуальный анализ данных» являются овладение студентами моделями и методами интеллектуального анализа данных и машинного обучения в задачах поиска информации, обработки и анализа данных, а также приобретение навыков исследователя данных (data scientist) и разработчика математических моделей, методов и алгоритмов анализа данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать примеры прикладных задач и их основные типы.
  • Знание линейных методов классификации и регрессии
  • Знать линейные методы классификации и регрессии: функционалы качества, методы настройки, особенности применения
  • Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out.
  • Знать логические методы и их интерпретируемость.
  • Знать композиции алгоритмов. Разложение ошибки на смещение и разброс.
  • Понимать методы поиска выбросов в данных. Методы восстановления пропусков в данных. Работа с несбалансированными выборками.
  • Знать и понимать задачи анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори
  • Понимать и применять задачу кластеризации. Алгоритм K-Means. Оценки качества кластеризации
  • Применять нейронные сети для анализа изображений
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия анализа данных
    Введение в машинное обучение и анализ данных. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Постановки задач машинного обучения. Примеры прикладных задач и их типы: классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных.
  • Математические объекты и методы в анализе данных
    Линейная алгебра и анализ данных. Линейные пространства, их примеры из машинного обучения (признаки в кредитом скоринге, векторные представления текстов). Коллинеарность и линейная независимость. Скалярное произведение, косинус угла, примеры их применения. Векторы и матрицы, операции над ними. Матричное умножение. Системы линейных уравнений. Обратная матрица. Математический анализ и анализ данных (на примере парной линейной регрессии и МНК). Производная и градиент, их свойства и интерпретации. Типы функций: непрерывные, разрывные, гладкие. Градиентный спуск. Выпуклые функции и их особое место в оптимизации. Теория вероятностей и анализ данных. Случайные величины. Дискретные и непрерывные распределения, их свойства. Примеры распределений и их важность в анализе данных: биномиальное, пуассоновское, нормальное, экспоненциальное. Характеристики распределений: среднее, медиана, дисперсия, квантили. Пример их использования при генерации признаков. Центральная предельная теорема. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Пример использования: анализ текстов и наивный байесовский классификатор. Доверительные интервалы и бутстрэппинг.
  • Линейная регрессия и классификация
    Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Метод наименьших квадратов: аналитическое решение и оптимизационный подход. Стохастический градиентный спуск. Тонкости градиентного спуска: размер шага, начальное приближение, нормировка признаков. Проблема переобучения. Регуляризация. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Кредитный скоринг. Логистическая регрессия: откуда берется такая функция потерь и почему она позволяет предсказывать вероятности. Максимизация зазора как пример регуляризации и устранения неоднозначности решения.
  • Оценивание качества алгоритмов
    Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Примеры использования. Классификация: доля верных ответов, ее недостатки. Точность и полнота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера). Оценки принадлежности классам: площади под кривыми. AUC-ROC, AUC-PRC, их свойства. Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out. Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.
  • Логические методы
    Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
  • Композиции алгоритмов
    Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов.Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag.
  • Особенности реальных данных
    Неполнота и противоречивость. Шумы и выбросы в данных. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов.
  • Анализ частых множеств признаков и ассоциативных правил
    Задача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори. Меры “интересности правил”.
  • Кластеризация данных
    Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.
  • Нейронные сети
    Типичные задачи. Алгоритм обратного распространения ошибки. Блоки нейронной сети. Архитектуры современных нейронных сетей. Типы нейронных сетей для различных видов данных. Нейронные сети для анализа изображений и видео.
Элементы контроля

Элементы контроля

  • неблокирующий Текущий контроль 1 модуля
  • неблокирующий Текущий контроль 2го модуля
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * Текущий контроль 1 модуля + 0.5 * Текущий контроль 2го модуля
Список литературы

Список литературы

Рекомендуемая основная литература

  • Воскобойников Ю.Е. - Регрессионный анализ данных в пакете MATHCAD - Издательство "Лань" - 2011 - 224с. - ISBN: 978-5-8114-1096-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/666

Рекомендуемая дополнительная литература

  • - Интеллектуальный анализ данных средствами MS SQL Server 2008 - Национальный Открытый Университет "ИНТУИТ" - 2016 - 337с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100609
  • Mirkin, B. Core concepts in data analysis: summarization, correlation and visualization. – Springer Science & Business Media, 2011. – 388 pp.
  • Zhao, Y., & Cen, Y. (2013). Data Mining Applications with R. Amsterdam: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=543675
  • Интеллектуальный анализ данных и систем управления бизнес-правилами в телекоммуникациях: Монография / Р.Р. Вейнберг. - Москва : НИЦ ИНФРА-М, 2016. - 173 с.: 60x90 1/16. - (Научная мысль) (Обложка) ISBN 978-5-16-011350-0 - Текст : электронный. - URL: http://znanium.com/catalog/product/520998
  • Калинина В.Н., Соловьев В.И. - Анализ данных. Компьютерный практикум (для бакалавров). Учебное пособие - КноРус - 2017 - 166с. - ISBN: 978-5-406-04895-5 - Текст электронный // ЭБС BOOKRU - URL: https://book.ru/book/929386