We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Technologies of work with big data

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Applied Mathematics and Informatics (Faculty of Informatics, Mathematics, and Computer Science (HSE Nizhny Novgorod))
Course type:
Compulsory course
When:
1 year, 1, 2 module

Instructor


Krylov, Vladimir

Программа дисциплины

Аннотация

Изучение данной дисциплины базируется на следующих дисциплинах: • Дискретная математика • Теория вероятности • Исследование операций. В результате освоения дисциплины студент должен: • Знать основные характеристики больших данных, знать основные технологии, применяемые для хранения и поиска в больших данных. • Уметь применять методы анализа больших данных, уметь реализовывать приложения для аналитики больших данных
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление с основными технологиями решения задач обработки больших по объему, быстро изменяющихся и плохо структурированных данных, объединяемых термином «большие данные»
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать определения в области больших данных. Международные стандарты
  • Уметь планировать жизненный цикл проектов по аналитике больших данных
  • Уметь разрабатывать программные решения для сбора и визуализации данных с использованием библиотек Python
  • Знать архитектуру платформ работы с большими данными Hadoop, Spark, SparkX, Neo4J и уметь разрабатывать приложения на этих платформах
  • Ознакомиться с типовыми решениями в прикладных задачах
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Большие данные как феномен ИТ и их роль в технике, экономике и жизни
    Определение термина большие данные и базовая модель. Применение больших данных. Роль больших данных в национальной экономике. Требования к профессии аналитика больших данных
  • Тема 2. Жизненный цикл проекта по аналитике больших данных
    Основные этапы жизненного цикла. Сбор, консолидация и очистка данных. Построение моделей, роль машинного обучения
  • Тема 3. Основные техники работы с большими данными
    Сбор и консолидация данных, визуализация данных, язык Python для аналитики, библиотека Tensor Flow, работа с СУБД
  • Тема 4. Основные технологии и инструменты работы с большими данными
    Hadoop, HDFS, Map/Reduce, YARN, Storm, Apache Spark
  • Тема 5. Приложения больших данных
    Особенности разработки программных решений, использующих большие данные. Обучаемые модели на структурированных данных. Примеры использования технологий больших данных в актуальных приложениях
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Экзамен
  • неблокирующий Домашнее задание
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.4 * Домашнее задание + 0.6 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Структуры и алгоритмы обработки данных: Учебное пособие / Колдаев В.Д. - М.:ИЦ РИОР, НИЦ ИНФРА-М, 2014. - 296 с.: 60x90 1/16. - (Высшее образование: Бакалавриат) (Переплёт 7БЦ) ISBN 978-5-369-01264-2 - Режим доступа: http://znanium.com/catalog/product/418290

Рекомендуемая дополнительная литература

  • Просчитать будущее: Кто кликнет, купит, соврет или умрет / Сигель Э. - М.:Альпина Пабл., 2016. - 374 с.: ISBN 978-5-9614-4541-1 - Режим доступа: http://znanium.com/catalog/product/917151