• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Foundations of machine learning

2018/2019
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Delivered at:
Department of Economic Theory and Econometrics (Faculty of Economics)
Course type:
Compulsory course
When:
3 year, 4 module

Instructor

Программа дисциплины

Аннотация

Не так давно получил распространение термин «большие данные», обозначивший новую прикладную область — поиск способов автоматического быстрого анализа огромных объёмов разнородной информации. Наука о больших данных ещё только оформляется, но уже сейчас она очень востребована — и в будущем будет востребована только больше. С её помощью можно решать невероятные задачи: оценивать состояние печени по кардиограмме, предсказывать зарплату по описанию вакансии, предлагать пользователю музыку на основании его анкеты в интернете. Большими данными может оказаться что угодно: результаты научных экспериментов, логи банковских транзакций, метеорологические наблюдения, профили в социальных сетях — словом, всё, что может быть полезно проанализировать. Самым перспективным подходом к анализу больших данных считается применение машинного обучения — набора методов, благодаря которым компьютер может находить в массивах изначально неизвестные взаимосвязи и закономерности. Читается с использованием курса: https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie
Цель освоения дисциплины

Цель освоения дисциплины

  • Узнать об основных методах машинного обучения и их особенностях, научиться оценивать качество моделей — и решать, подходит ли модель для решения конкретной задачи. Наконец, познакомиться с современными библиотеками, в которых реализованы обсуждаемые модели и методы оценки их качества. Для работы используются реальные данные из реальных задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент знает основные понятия, способен написать простой код с применением решающих деревьев
  • Студент может применять методы классификации, способен написать простой код
  • Студент способен использовать применять метод опорных векторов, Логистическую регрессию, метрики качества классификации
  • Студент использует линейную регрессию. Знает методы понижения размерности, метод главных компонент
  • Студент имеет представление о композиции алгоритмов, градиентный бустинге. Знает методы обучения нейронных сетей.
  • Студент знает методы визуализации, знаком с понятием «частичное обучение».
  • Студент может привести пример задач анализа данных: постановки и методы решения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Введение. Примеры задач. Логические методы: решающие деревья и решающие леса.
    Рассказывается о задачах, которые решает машинное обучение, определяется базовый набор понятий и вводятся необходимые обозначения. Также рассказывается про основные библиотеки языка Python для работы с данными (NumPy, Pandas, Scikit-Learn), которые понадобятся для выполнения практических заданий на протяжении всего курса.Логические методы делают классификацию объектов на основе простых правил, благодаря чему являются интерпретируемыми и легкими в реализации. При объединении в композицию логические модели позволяют решать многие задачи с высоким качеством. В этом модуле мы изучим основной класс логических алгоритмов — решающие деревья. Также говорится про объединение деревьев в композицию, называемую случайным лесом.
  • Тема 2. Метрические методы классификации. Линейные методы, стохастический градиент
    Метрические методы проводят классификацию на основе сходства, благодаря чему могут работать на данных со сложной структурой — главное, чтобы между объектами можно было измерить расстояние. Изучается метод k ближайших соседей, а также способ его обобщения на задачи регрессии с помощью ядерного сглаживания.Линейные модели — один из наиболее изученных классов алгоритмов в машинном обучении. Они легко масштабируются и широко применяются для работы с большими данными. В этом модуле изучается метод стохастического градиента для настойки линейных классификаторов, познакомимся с регуляризацией и обсудим некоторые тонкости работы с линейными методами.
  • Тема 5. Композиции алгоритмов, градиентный бустинг. Нейронные сети.
    Объединение большого числа моделей в композицию может значительно улучшить итоговое качество за счет того, что отдельные модели будут исправлять ошибки друг друга. Обсуждаются основные понятия и постановки задач, связанные с композициями, и обсуждается один из наиболее распространенных способов их построения — градиентный бустинг. Нейронные сети позволяют находить сложные нелинейные разделяющие поверхности, благодаря чему широко используются в таких трудных задачах, как распознавание изображений и речи. Изучаются многослойные нейронные сети и их настройку с помощью метода обратного распространения ошибки. Также мы поговорим о глубоких нейросетях, их архитектурах и особенностях.
  • Тема 4. Линейная регрессия. Понижение размерности, метод главных компонент.
    Изучаются линейные модели для регрессии и обсуждаются их связь с сингулярным разложением матрицы "объекты-признаки". В прикладных задачах часто возникает потребность в уменьшении количества признаков — например, для ускорения работы моделей. Обсуждаются подходы к отбору признаков, а также изучается метод главных компонент, один из самых популярных методов понижения размерности.
  • Тема 3. Метод опорных векторов (SVM). Логистическая регрессия. Метрики качества классификации.
    Линейные методы имеют несколько очень важных подвидов, о которых пойдет речь в этом модуле. Метод опорных векторов максимизирует отступы объектов, что тесно связано с минимизацией вероятности переобучения. При этом он позволяет очень легко перейти к построению нелинейной разделяющей поверхности благодаря ядровому переходу. Логистическая регрессия позволяет оценивать вероятности принадлежености классам, что оказывается полезным во многих прикладных задачах. В машинном обучении существует большое количество метрик качества, каждая из которых имеет свою прикладную интерпретацию и направлена на измерение конкретного свойства решения.Обсуждается, какие бывают метрики качества бинарной и многоклассовой классификации, а также рассмотрим способы сведения многоклассовых задач к двухклассовым.
  • Тема 6. Кластеризация и визуализация. Частичное обучение.
    Этот модуль посвящен новому классу задач в машинном обучении — обучению без учителя. Под этим понимаются ситуации, в которых нужно найти структуру в данных или произвести их "разведку". В этом модуле мы обсудим две таких задачи: кластеризацию (поиск групп схожих объектов) и визуализацию (отображение объектов в двух- или трехмерное пространство). Под частичным обучением понимается задача, находящаяся между обучением с учителем и кластеризацией: дана выборка, в которой значение целевой переменной известно лишь для части объектов. Такие ситуации встречаются, когда разметка объектов является дорогой операцией, но при этом достаточно дешево можно подсчитать признаки для объектов. Обсуждаются отличия частичного обучения от рассмотренных ранее постановок, и разбераются несколько подходов к решению.
  • Тема 7. Прикладные задачи анализа данных: постановки и методы решения.
    Подводятся итоги курса, вспоминаются основные этапы решения задачи анализа данных. Также разбираются несколько задач из прикладных областей, чтобы подготовиться к выполнению финального проекта.
Элементы контроля

Элементы контроля

  • неблокирующий Итоговый контроль по онлайн курсу
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * Итоговый контроль по онлайн курсу + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Демидова О. А., Малахов Д. И. - ЭКОНОМЕТРИКА. Учебник и практикум для прикладного бакалавриата - М.:Издательство Юрайт - 2019 - 334с. - ISBN: 978-5-534-00625-4 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/ekonometrika-432950

Рекомендуемая дополнительная литература

  • Эконометрика. Начальный курс, учебник, 8-е изд., 504 с., Магнус, Я. Р., Катышев, П. К., Пересецкий, А. А., 2007