• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Научно-исследовательский семинар "Основы анализа данных"

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1, 2 модуль

Преподаватель


Каляева Екатерина Валерьевна

Программа дисциплины

Аннотация

Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Фундаментальная и прикладная лингвистика» и направлен на формирование компетенций в области статистики и анализа данных с акцентом на текстовые данные. Знания и компетенции, полученные в результате освоения курса, будут полезны студентам в ходе продолжения обучения в НИУ ВШЭ (в том числе на дисциплинах “Интеллектуальный анализ данных”, “Введение в нейронные сети и машинный перевод”), при подготовке исследовательских проектов, курсовых работ и ВКР с прикладной компонентой, в том числе для проведения статистического анализа и классификации текстовых данных, для проверки статистических гипотез в лингвистических задачах, для построения визуализаций и отчетов.
Цель освоения дисциплины

Цель освоения дисциплины

  • овладение студентами основами статистики и анализа данных для применения в решении практических лингвистических задач
Планируемые результаты обучения

Планируемые результаты обучения

  • ● Использовать Python в применении к анализу данных.
  • ● Работать с разными типами и структурами данных.
  • ● Корректно открывать табличные данные различных форматов, работать с ними.
  • ● Использовать собственноручно написанные функции для обработки данных, создания новых переменных.
  • ● Корректно использовать основные статистические понятия.
  • ● Вычислять описательные статистики и интерпретировать полученные результаты.
  • ● Вычислять коэффициент корреляции Пирсона и интерпретировать полученные результаты.
  • ● Визуализировать данные с помощью разных видов диаграмм: линейной, рассеяния, столбчатой, тепловой карты, ящика с усами.
  • ● Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
  • ● Применять параметрические и непараметрические статистические критерии для проверки гипотез.
  • ● Решать задачу классификации с использованием линейной и логистической регрессии.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в инструменты
  • Типы данных
  • Структуры данных
  • Форматы данных
  • Введение в статистику
  • Описательные статистики: меры центральной тенденции и разброса
  • Корреляция
  • Введение в визуализацию данных
  • Продвинутая визуализация данных
  • Введение в тестирование гипотез. Непараметрические критерии.
  • Параметрические критерии для проверки гипотез.
  • Линейная регрессия
  • Логистическая регрессия
  • Введение в машинное обучение
  • Консультационное занятие по вопросам студентов
Элементы контроля

Элементы контроля

  • неблокирующий Тест 1
  • неблокирующий Тест 2
  • неблокирующий Домашнее задание
  • неблокирующий Проект
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.4 * Проект + 0.2 * Домашнее задание + 0.2 * Тест 2 + 0.2 * Тест 1
Список литературы

Список литературы

Рекомендуемая основная литература

  • Frederick J Gravetter, Larry B. Wallnau, Lori-Ann B. Forzano, & James E. Witnauer. (2020). Essentials of Statistics for the Behavioral Sciences, Edition 10. Cengage Learning.

Рекомендуемая дополнительная литература

  • Jack A. Levin, & James Alan Fox. (2013). Elementary Statistics in Social Research: Pearson New International Edition : Essentials. Harlow, United Kingdom: Pearson. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1418805