• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Applied Data Science with Python

2019/2020
Academic Year
ENG
Instruction in English
3
ECTS credits

Instructor

Course Syllabus

Abstract

Курс предназначен для ознакомления учащегося с основами прикладного машинного обучения. Вы научитесь работать с инструментарием обучения scikit. Будут обсуждаться вопросы размерности данных, и решаться задачи кластеризации данных и оценки этих кластеров. Будут рассмотрены более продвинутые методы машинного обучения, такие как построение ансамблей и практическое ограничение прогностических моделей. К концу этого курса студенты смогут определить разницу между контролируемой (классификацией) и неконтролируемой (кластеризованной) техникой, определить, какую технику им нужно применять для определенного набора данных, написать код Python для проведения анализа.
Learning Objectives

Learning Objectives

  • Освоение базовых алгоритмов машинного обучения, позволяющих решать различные задачи анализа данных
  • Освоение библиотек языка python, в которых реализованы различные алгоритмы машинного обучения
Expected Learning Outcomes

Expected Learning Outcomes

  • Знание базовых алгоритмов решения задач машинного обучения, таких как классификация, регрессия
  • Владение методами отбора признаков и борьбы с переобучением
  • Владение методами оценки качества построенных моделей и выбора наилучшей
  • Умение применять изученные модели к реальным задачам, используя библиотеки языка программирования python (scikit-learn, numpy, pandas).
Course Contents

Course Contents

  • Fundamentals of Machine Learning - Introduction to SciKit Learn
    This module introduces basic machine learning concepts, tasks, and workflow using an example classification problem based on the K-nearest neighbors method, and implemented using the scikit-learn library.
  • Supervised Machine Learning - Part 1
    This module delves into a wider variety of supervised learning methods for both classification and regression, learning about the connection between model complexity and generalization perfor-mance, the importance of proper feature scaling, and how to control model complexity by applying techniques like regularization to avoid overfitting. In addition to k-nearest neighbors, this week covers linear regression (least-squares, ridge, lasso, and polynomial regression), logistic regression, support vector machines, the use of cross-validation for model evaluation, and decision trees.
  • Evaluation
    This module covers evaluation and model selection methods that you can use to help understand and optimize the performance of your machine learning models.
  • Supervised Machine Learning - Part 2
    This module covers more advanced supervised learning methods that include ensembles of trees (random forests, gradient boosted trees), and neural networks (with an optional summary on deep learning). You will also learn about the critical problem of data leakage in machine learning and how to detect and avoid it.
Assessment Elements

Assessment Elements

  • non-blocking Контрольная работа
  • non-blocking Устный экзамен
    Экзамен проводится на платформе LMS (https://lms.hse.ru). Студенты должны предоставить транскрипт ЛМС
Interim Assessment

Interim Assessment

  • Interim assessment (4 module)
    0.5 * Контрольная работа + 0.5 * Устный экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Muller, A. C., & Guido, S. (2017). Introduction to machine learning with Python: a guide for data scientists. O’Reilly Media. (HSE access: http://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4698164)

Recommended Additional Bibliography

  • Duda, R. O., Stork, D. G., & Hart, P. E. (2001). Pattern Classification (Vol. 2nd ed). New York: Wiley-Interscience. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=531488
  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008