«Не проверяет, а учит»: в Нижнем Новгороде состоялся хакатон олимпиады по анализу данных DANO
В Нижнем Новгороде состоялся хакатон для учеников 9-11 классов в рамках Национальной олимпиады по анализу данных DANO. «Все большую часть рынка занимают позиции, требующие работы с большими данными, поэтому еще в школе нужно учиться их обрабатывать, анализировать, получать правильные выводы», - отметил Дмитрий Покровский, сопредседатель методической комиссии Национальной олимпиады по анализу данных DANO.
В хакатоне участвовали более 90 школьников 9-11 классов из Москвы, Нижнего Новгорода и области, Санкт-Петербурга, Самары, Чебоксар, Уфы - всего из 15 регионов России.
Команды получили датасет для исследования с информацией о 50 000 участниках досуговой программы для людей старшего возраста «Московское долголетие». На основе анализа данных командам необходимо было найти решение, как привлечь больше участников или увеличить посещаемость занятий в этой программе.
Ребятам предстояло выдвинуть гипотезы, продумать механизм логических взаимосвязей, выявить и проиллюстрировать зависимости между переменными. Важно было не только проверить гипотезу, но и протестировать устойчивость выводов, показать, как полученные результаты можно использовать для развития программы. Каждой команде помогал ментор с опытом работы над исследовательским проектом.
Софья Заяц, ментор команды №20, студент программы «Экономика» НИУ ВШЭ – Нижний Новгород, 4 курс
«Я видела, что участникам сложно понять суть задания и, соответственно, сформулировать на его основе исследовательскую гипотезу. Задание было достаточно объемным, ребятам сложно было сориентироваться в параметрах. Я настраивала диалог между ребятами, задавала наводящие вопросы. Это был мой первый опыт как ментора, большая часть работы в первый день была посвящена формулировке гипотезы».
Интересно, что команды на хакатоне были сформированы таким образом, чтобы в каждой оказались и новички, и опытные участники.
Игорь Привалов, член жюри хакатона, старший преподаватель факультета менеджмента НИУ ВШЭ – Нижний Новгород
Видно, что в каждой команде оказались участники с разным уровнем подготовки. Кто-то делает первые шаги – порой им не хватает насмотренности и математического аппарата, продуктового видения, чтобы посмотреть на проблему с более высоким уровнем абстракции. А некоторые – очень умело работали с критериями, сразу виден опыт исследований. Очень хорошо, что они вместе участвуют в решении задачи, именно такой подход позволяет наработать необходимый опыт.
Группа экспертов оценивала методологию исследования и его практическую пользу на основе заданных критериев аналитического и презентационного блоков:
• Предварительный анализ и анализ структуры данных (представлен анализ структуры данных с незначительными недочетами или без них; исследованы основные показатели - средние значения + несколько статистик или распределения; построены взаимосвязи и/ или корреляция переменных выборки; обработаны выбросы)
• Гипотеза и механизм (гипотеза четко сформулирована, соответствует поставленному в задании хакатона вопросу и не является тривиальной; механизм с незначительными недостатками в логике или без них)
• Проверка гипотезы математическими методами (проведено сравнение средних для проверки гипотезы (или реализован альтернативный релевантный метод); выполнен анализ по подвыборкам, анализ связей между переменными (возможно, графический) или продвинутый анализ распределений переменных с учётом вариативности, формы, мультимодальности и т.д.
• В презентационном блоке члены жюри оценивали командную работу, логику презентации, визуализацию результата, перспективы и применимость исследования.
Ирина Зороастрова, член жюри хакатона, старший преподаватель факультета экономики НИУ ВШЭ
Важно, чтобы гипотеза была нетривиальной, а критерии в ее основе - измеримыми. Иногда команды заявляют одну гипотезу, а проверяют другую. Не хватает опыта и времени, чтобы критически взглянуть на полученные результаты и скорректировать свою первоначальную позицию. Во время обсуждения презентаций мы постарались показать ребятам перспективы развития их исследований и надеемся, что это поможет им совершенствоваться в анализе данных.
Сборная команда №20 в составе ребят из Москвы и Чебоксар работала с гипотезой о положительной корреляции в первые два и последующие месяцы посещений: «если участники посещают занятия в первые два месяца, соответственно, они эту тенденцию сохраняют или увеличивают».
Для проверки гипотезы команда построила графики в Python и Excel. Часть идей была реализована с помощью чата GPT, для презентации использовали Figma.
Гипотеза подтвердилась, однако по мнению участников, было бы полезно получить данные за бОльший промежуток времени. К тому же, слишком непропорциональным оказалось соотношение мужчин и женщин (1 к 10), чтобы сделать корректные выводы.
«Мы использовали библиотеки seaborn, pandas, простейшие методы статистики – средние, дисперсии, медиану, моду. Наш «внештатный программист» ChatGPT писал часть кода, исправлял технические ошибки. Это была настоящая командная работа по сбору и обработке данных, построению графиков, подготовке документации и презентации в целом. Виктория как единственный гуманитарий среди инженеров следила за идеями, их структурой и окончательными формулировками», - поделились участники.
«Кооперация навыков – важная часть командной работы для успешных проектов», - убежден Данил Фёдоровых, заместитель проректора, начальник Управления развития интеллектуальных состязаний НИУ ВШЭ.
Данил Федоровых
Самое сложное в анализе данных - сформулировать правильный исследовательский вопрос и механизм проверки гипотезы. Для этого, кроме знания математики и языков программирования, необходимы экономические навыки. Поэтому мы проводим олимпиады DANO на стыке социальных, точных и компьютерных наук и ждем школьников, которые этим интересуются.
Данил Федоровых высоко оценил уровень предлагаемых решений команд этого года, отметил продвинутые методы статистического анализа и нестандартные инструменты визуализации.
Так, сборная команда из Санкт-Петербурга и Набережных Челнов, занявшая 1 место в хакатоне, для визуализации своего решения наложила адреса центров проведения занятий на адреса участников, выгруженные из API Яндекс Карт.
По мнению участников команды, датасет задания не предполагал широких комбинаторных возможностей. Использование данных из API позволило выполнить уникальное исследование, наглядно его оформить и получить выводы с рекомендациями.
«Мы выдвинули гипотезу о влиянии расстояния от ближайшего центра на выбор формата занятий (онлайн или офлайн). Чтобы удалить выбросы, мы использовали метод z-оценки. Собрали данные с помощью Yandex API по адресам, которые указаны в базе данных. По Yandex API нашли координаты ближайших центров, посчитали ближайшие расcтояния.
С помощью двухвыборочного Т-теста гипотезу мы опровергли: расстояние до ближайшего центра проведения занятий от «Московского долголетия» никак не влияет на выбор формата», - прокомментировали победители.
Во время проведения исследования ребята заметили интересный факт – часть центров построены в таких местах, где вообще нет целевой аудитории. В то же время на карте были отмечены скопления точек – домов, где открыть центры было бы полезным. Эту рекомендацию участники команды также отразили в результатах своего исследования.
Армен Есаян, ментор команды-победителя, студент факультета экономики НИУ ВШЭ, 4 курс
Ребята использовали продвинутые статистические критерии по типу критерия Шапиро-Уилка, который проверяет на принадлежность наблюдаемой выборки нормальной генеральной совокупности, статистические критерии для проверки гипотез. Здорово, что они смогли разобраться со сложными инструментами в таком возрасте, и применили наглядную визуализацию. Мне понравилось, что мы говорили с ребятами на одном языке – на языке Python.
Организаторы олимпиады убеждены: для того, чтобы стать хорошим аналитиком данных, необходимы не только знания в математике и программировании. Важно тренировать насмотренность и креативность, а главное – уметь сопоставлять цифры с их физическим проявлением. «Сами по себе цифры ничего не скажут. Нужно понимать закономерности, которые за ними стоят», - отмечает Владислав Пикиневич.
Влад Пикиневич, руководитель аналитики «Тинькофф Выгода», председатель жюри Национальной олимпиады по анализу данных DANO
Анализ данных - достаточно молодая профессия. Он позволяет найти неочевидные закономерности, подтвердить их математически, оптимизировать процессы и сделать жизнь людей комфортнее. Благодаря олимпиаде DANO школьники могут понять, что делают реальные аналитики, какие профессии могут быть с этим связаны и выбрать вуз, который максимально приблизит их к изучению этой сферы.
Антон Лыков, организатор Хакатона национальной олимпиады по анализу данных DANO в Нижнем Новгороде
Мы солидарны с экспертами в том, что этот хакатон скорее не проверяет, а учит. Здорово, что ребята видели апробацию своего исследования и участвовали в дискуссии. Здесь участники получают не просто баллы, а качественную обратную связь – что можно исправить, чем дополнить исследование. Ребята отлично инвестировали эти выходные в свое образование, в свою будущую профессию.