• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis and Data Mining

2019/2020
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Elective course
When:
4 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Настоящая дисциплина относится к циклу дисциплин, обеспечивающих подготовку бакалавра по направлению «Программная инженерия». Изучение данной дисциплины базируется на знаниях, полученных при освоении дисциплин: линейная алгебра и геометрия, математический анализ, дискретная математика, математическая статистика, программирование
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Анализ и разработка данных» является получение высшего профессионально профилированного (на уровне бакалавра) образования, позволяющего выпускнику успешно работать в избранной сфере деятельности, обладать универсальными и предметно-специализированными компетенциями, способствующими его социальной мобильности и устойчивости на рынке труда
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать общие концепции анализа данных
  • Знать концепцию вероятностного происхождения данных
  • Знать вероятностную модель байесовского классификатора
  • Знать общие линейные классификаторы, метод опорных векторов с жесткими и мягкими границами
  • Знать принципы построения деревьев решений, ансамбли решающих правил
  • Знать общие принципы построения нейронных сетей
  • Знать особенности глубоких нейронных сетей
  • Знать общие принципы обучения с подкреплением
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема № 1. Введение. Примеры практических задач
    Содержательные постановки задач интеллектуального анализа данных и машинного обучения. Связь с другими областями знания и практической деятельности. Основная терминология. Примеры практических задач обучения с учителем и без учителя. Обзор учебных материалов и ресурсов Интернет по тематике дисциплины
  • Тема №2. Вероятностная постановка задачи обучения с учителем
    Регрессионная функция. Байесов классификатор. Принцип максимума апостериорной вероятности. Метод максимального правдоподобия. Метод ближайших соседей для задачи классификации и задачи восстановления регрессии. Теорема об оценке риска в методе ближайшего соседа
  • Тема №3. Наивный байесовский классификатор
    Непараметрические оценки плотности вероятности. Наивный байесовский классификатор. Окно Парзена-Розенблатта
  • Тема № 4. Метод опорных векторов
    Оптимальная разделяющая гиперплоскость. Сведение метода к задаче квадратичного программирования. Ядра и спрямляющие пространства в методе «машина опорных векторов»
  • Тема № 5. Деревья решений. Ансамбли решающих правил
    Метод деревьев решений для решения задач машинного обучения. Алгоритм CART. (2 часа) Баггинг. Алгоритм Random Forest. Ансамбли решающих правил. Комбинирование слабых решающих правил. Бустинг. Алгоритм AdaBoost
  • Тема № 6. Нейронные сети
    Персептрон Розенблатта. Теорема Новикова о построении разделяющей гиперплоскости. Нейронная сеть. Алгоритм обратного распространения ошибки как градиентный метод. Борьба с переобучением с помощью регуляризации. Представление о глубоком обучении
  • Тема № 7. Глубокое обучение
    Эволюция архитектур нейронных сетей. Современные применения глубокого обучения. Обзор state-of-the-art методов глубокого обучения
  • Тема № 8. Обучение с подкреплением
    Задача обучения с подкреплением. Марковский процесс принятия решения. Уравнения Беллмана. Exploration/Exploitation trade-off . Q-learning. SARSA. Deep Q-learning
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.2 * Домашнее задание + 0.3 * Контрольная работа + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Рекомендуемая дополнительная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
  • Ian Goodfellow and Yoshua Bengio and Aaron Courville. Deep Learning, 2016. URL: http://www.deeplearningbook.org