• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Магистерская программа «Интеллектуальный анализ данных»

Технологии работы с большими массивами данных

2025/2026
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты

Программа дисциплины

Аннотация

Изучение данной дисциплины базируется на следующих дисциплинах: • Дискретная математика • Теория вероятности • Исследование операций. В результате освоения дисциплины студент должен: • Знать основные характеристики больших данных, знать основные технологии, применяемые для хранения и поиска в больших данных. • Уметь применять методы анализа больших данных, уметь реализовывать приложения для аналитики больших данных
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление с основными технологиями решения задач обработки больших по объему, быстро изменяющихся и плохо структурированных данных, объединяемых термином «большие данные»
Планируемые результаты обучения

Планируемые результаты обучения

  • В результате освоения темы обучающийся: объясняет основные понятия и принципы, рассматриваемые в рамках темы; анализирует роль изучаемых технологий в архитектуре Big Data-систем; сопоставляет различные архитектурные и технологические подходы; обосновывает выбор решений для хранения, передачи и обработки больших данных; использует терминологию и концепции Big Data при описании и анализе прикладных кейсов.
  • В результате освоения темы обучающийся: объясняет принципы потоковой передачи данных; анализирует архитектуру Kafka и функции её компонентов; обосновывает использование Kafka для решения задач потоковой обработки; интерпретирует схемы потоковых пайплайнов.
  • В результате освоения темы обучающийся: описывает архитектуру распределённого хранения данных; анализирует механизмы обеспечения надёжности в HDFS; сравнивает распределённое и централизованное хранение данных; обосновывает выбор Hadoop для хранения больших объёмов данных.
  • В результате освоения темы обучающийся: описывает процесс распределённой обработки данных; анализирует выполнение вычислений в Spark-приложениях; сопоставляет Spark с альтернативными подходами обработки данных; обосновывает применение Spark в Big Data-проектах.
  • В результате освоения темы обучающийся: описывает архитектуру Data Lake и Lakehouse; сравнивает ETL и ELT-подходы; анализирует требования к надёжности и согласованности данных; обосновывает выбор табличных форматов и Lakehouse-решений.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Большие данные в цифровой экономике и современных ИТ-системах
  • Тема 2. Apache Kafka как платформа потоковой обработки данных
  • Тема 3. Hadoop и распределённое хранение больших данных
  • Тема 4. Apache Spark и распределённая обработка больших данных
  • Тема 5. Data Lake, ETL/ELT и современные Lakehouse-архитектуры
Элементы контроля

Элементы контроля

  • неблокирующий Работа с Kafka.
  • неблокирующий Работа с Hadoop и Spark
  • неблокирующий Lakehouse toy
  • неблокирующий Test
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 4th module
    0.2 * Lakehouse toy + 0.4 * Test + 0.2 * Работа с Hadoop и Spark + 0.2 * Работа с Kafka.
Список литературы

Список литературы

Рекомендуемая основная литература

  • 16667 - Hadoop в действии - Ч.Лэм - ДМК Пресс - 2015 - https://hse.alpinadigital.ru/document/16667 - Alpina
  • 22541 - Проектирование событийно-ориентированных систем в Apache Kafka - Б.Стопфорд - ДМК Пресс - 9785604241219 - 2019 - https://hse.alpinadigital.ru/document/22541 - Alpina
  • 33905 - Kafka в действии - В.Гамов; Д.Клейн; Д.Скотт - ДМК Пресс - 9785937001184 - 2022 - https://hse.alpinadigital.ru/document/33905 - Alpina
  • Big data : principles and best practices of scalable real-time data systems, Marz, N., 2015
  • Big data for beginners : understanding SMART big data, data mining and data analytics for improve..., Reynolds, V., 2016
  • Brajesh Mishra. (2020). Big Data Analysis Using Hadoop Map Reduce. https://doi.org/10.26562/irjcs.2020.v0705.005
  • Guller, M. (2015). Big Data Analytics with Spark : A Practitioner’s Guide to Using Spark for Large Scale Data Analysis. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1174460
  • Hoger Khayrolla Omar, & Alaa Khalil Jumaa. (2019). Big Data Analysis Using Apache Spark MLlib and Hadoop HDFS with Scala and Java. https://doi.org/10.24017/science.2019.1.2
  • Jules S. Damji, Brooke Wenig, Tathagata Das, & Denny Lee. (2020). Learning Spark. O’Reilly Media.
  • Narkhede, N., Shapira, G., & Palino, T. (2016). Kafka: The Definitive Guide : Real-Time Data and Stream Processing at Scale: Vol. First edition. O’Reilly Media.
  • Parsian, M. (2015). Data Algorithms : Recipes for Scaling Up with Hadoop and Spark. [Sebastopol, CA]: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1028927
  • Perspectives on big data analysis : methodologies and applications: International Workshop on perspectives on high-dimensional data analysis II, May 30- June 1, 2012,Centre de Recherches Mathematiques, Universite de Montreal, Montreal, , 2014
  • Privacy and big data, Craig, T., 2011
  • Ryza, S., Laserson, U., Owen, S., & Wills, J. (2017). Advanced Analytics with Spark : Patterns for Learning From Data at Scale (Vol. Second edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1533378
  • Spark для профессионалов : современные паттерны обработки больших данных, , 2017
  • Storing and managing big data NoSQL, Hadoop and more : high impact strategies - what you need to know: definitions, adoptions, impact, benefits, maturity, vendors, Roebuck, K., 2011
  • UI AHSAAN, S., & MOURYA, A. K. (2019). Big Data Analytics: Challenges and Technologies. Annals of the Faculty of Engineering Hunedoara - International Journal of Engineering, 17(4), 75–79.
  • White T. Hadoop: The Definitive Guide. - O'Reilly Media, 2015.
  • White, T. (2011). Hadoop : The Definitive Guide: Vol. 2nd ed., updated. Yahoo Press.
  • Мартишин С.А., Симонов В.Л., Храпченко М.В. - Базы данных: Работа с распределенными базами данных и файловыми системами на примере MongoDB и HDFS с использованием Node.js, Express.js, Apache Spark и Scala - 978-5-16-015643-9 - НИЦ ИНФРА-М - 2023 - https://znanium.ru/catalog/product/2111334 - 2111334 - ZNANIUM
  • Расширенная аналитика с PySpark: Пер. с англ. - 978-5-9775-1770-6 - Tandon Akash - 2023 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/bookshelf/389656 - 389656 - iBOOKS

Авторы

  • Максимов Антон Сергеевич