Пристегните ремни: анализ данных может привести к динамическим штрафам
В НИУ ВШЭ – Нижний Новгород состоялся хакатон в рамках Национальной олимпиады по анализу данных DANO. 128 старшеклассников из Москвы, Нижнего Новгорода и области, Санкт-Петербурга, Перми, Екатеринбурга – по сравнению с прошлым годом хакатон собрал на 30% больше участников из 19 городов России.
Участники этого интеллектуального соревнования традиционно пробуют себя в роли аналитиков, работают с реальными базами данных и создают на их основе собственное исследование. В этом году ребятам необходимо было проанализировать структуру и динамику нарушений правил дорожного движения на основе данных о штрафах от ГИБДД, выявить проблемные аспекты и разработать меры по их устранению. Обезличенные данные по штрафам своих клиентов были предоставлены Т-Банком за период с 28 апреля 2024 г. по 28 мая 2024 г.
В течение двух дней ребята работали в 25 группах по 5-6 человек под руководством менторов из НИУ ВШЭ и Т-банка. Они исследовали переменные, иллюстрировали зависимости, продумывали механизмы логических взаимосвязей и строили гипотезы, которые потом нужно было проверить – провести анализ, используя математические методы и статистику, и выяснить, подтверждается ли гипотеза и устойчивы ли выводы.
Марина Наугольнова, студентка 4 курса программы «Экономика» НИУ ВШЭ – Нижний Новгород, ментор
Ментор – это наставник, который не решает задание за команду, но помогает, направляет, рассказывает, какие материалы можно использовать, какие статистические тесты, на что стоит обратить внимание, и как вообще работать с информацией. Например, в наших данных была информация о водителе, которому 4 года. Очевидно, что это нереальные данные, и их надо убрать, потому что анализ с ними только навредит результатам. И задача ментора обратить на это внимание, если команда сама это не заметила. Вообще, одно из самых важных качеств для аналитика – это общее понимание жизни, насмотренность, потому что к аналитику может попасть любой датасет. Сегодня мы работали с автонарушениями, и у школьников нет опыта вождения автомобиля, нет прав, но имея общее понимание этой сферы, можно с большим успехом проанализировать и это.
Дмитрий Захаров, Т-Банк, ментор хакатона
Хороший аналитик должен уметь задавать вопросы, быть коммуникабельным и открытым новым данным. Потому что самый глупый вопрос – это тот, который ты не задал. Вообще важно уметь разговаривать, потому что математику и навыки разработки языка данных можно подкачать, а вот задавать нужные вопросы, задавать их бизнесу и команде разработки, быть между ними связующим звеном – это самое основное.
Михаил Гашков, Т-Банк, ментор хакатона
Работа на хакатоне на самом деле очень близка к тому, что делает реальный аналитик на реальной работе. Он берет данные, которые нужно очистить, их нужно изучить, построить какие-то распределения и понять, какие гипотезы на основе этих данных можно сделать.
Например, у одной группы было предположение, что, когда у людей рождаются дети, меняется распределение штрафов, человек становится более ответственным и не получает штрафы за нарушения, которые реально представляют угрозу жизни – проезд на красный свет, большое превышение скорости, остановка в неположенном месте. И хотя эта гипотеза не подтвердилась, важно, что ребята учатся мыслить, анализировать и, возможно, в будущем, набравшись опыта, они уже будут делать эти исследования на более серьезном уровне.
Первый этап работы с данными – это их проверка и очистка – отсекание лишней и некорректной информации. Затем нужно обработать и проанализировать данные в целом, посмотреть, как они распределяются по полу, возрасту, по типам автомобиля, по времени правонарушения. И далее идут выводы, построение предположения о том, что можно исследовать в этих данных, исследовательский вопрос и формулировка гипотезы.
Для работы с данными ребята использовали такие инструменты, как программирование в Excel с использованием фильтров и функций, программирование Python с использованием библиотек, а также обращались к нейросетям для помощи в поиске или описании.
Заключительный этап работы – подтверждение или опровержение гипотезы и тезисы о ее дальнейшем применении.
К примеру, группа №22, занявшая 3 место, представила такую гипотезу: в темное время суток совершается больше правонарушений молодыми водителями. Ребята предложили следующие изменения на основе сделанных выводов: увеличить интенсивность ночного патрулирования, увеличить количество и качество инфракрасных камер, увеличить штраф за превышение скоростного режима и улучшить освещение на автодорогах.
Большинство гипотез участники связали с характеристиками автомобиля, такими как мощность, стоимость, класс. Из интересных гипотез эксперты отметили следующие:
- чаще совершают правонарушения люди с доходом выше среднего на дорогих машинах
- чаще совершают правонарушения водители на машинах «универсал»
- в ночное время большая доля штрафов приходится на водителей автомобилей с механической коробкой передач.
Все эксперты сошлись во мнении, что каждый год уровень подготовки команд становится все более высоким. Некоторые ребята проходят специализированные курсы, изучают задания прошлых лет и серьезно готовятся к хакатону.
Ирина Зороастрова, эксперт, член жюри хакатона, старший преподаватель факультета экономики НИУ ВШЭ
Уровень участников хакатона я оцениваю как более высокий по сравнению с прошлым годом. Инструменты стали более сложными, и действия более осмысленными. Возможно, дал о себе знать опыт предыдущих лет или накопленная база хакатонов, по которой ребята готовились. Можно пожелать участникам не пренебрегать простыми инструментами или, по крайней мере, двигаться по пути от простого к сложному. Потому что в некоторых случаях использование сложных инструментов показалось не очень оправданным по сравнению с поставленной целью. Гипотезы у ребят были достаточно интересными и, в целом, не опирались на стереотипные представления, например, о поведении мужчин и женщин. Аналитик – это человек, который должен уметь задавать собственные вопросы.
Александр Ларин, эксперт, член жюри хакатона, старший преподаватель факультета экономики НИУ ВШЭ
Гипотезы в целом были все достаточно простыми. Впечатлили не сами гипотезы, а то, как ребята их понимали, как они пытались их проверить на данных, какие методы использовали. Это достаточно высокий уровень, сравнимый с уровнем студента бакалавриата университета, и порой даже студента магистратуры. Но помимо того, что нужно разбираться в каких-то базовых методах, важен ещё опыт, нужно пробовать на разных датасетах строить какие-то гипотезы и самостоятельно их исследовать. Также для аналитика важно умение понимать проблему и внимание к деталям, без этого сложно найти какое-то решение.
Юрий Пыхтеев, эксперт, член жюри хакатона
Уровень команд сегодня довольно высокий. Это неожиданно для регионального отборочного турнира. Некоторые команды с очень глубокими исследованиями, на которые даже в условиях хакатона не хватает времени, чтобы вникнуть и разобрать все нюансы, которые ребята отметили. Молодцы! Впечатляет, что школьники применяют довольно серьёзные методы, которые изучают в университетах, а не в школах, такие как эконометрика. Некоторые из них умеют строить модели, делать оценку, проверять устойчивость – это все не так просто.
Владислав Пикиневич, председатель жюри олимпиады DANO, член жюри хакатона, руководитель аналитики партнерских кэшбеков Т-Банка
Уровень сегодняшних команд очень хороший. Я получил удовольствие, находясь сегодня в комиссиях. Ребята начали серьёзнее относиться к хакатону, готовиться, вкладывать больше усилий и понимать, что это не просто какое-то мероприятие, куда можно прийти повеселиться, а действительно полноценное состязание. Те знания, которые здесь требуются, больше похожи на вузовский уровень. И без какой-либо подготовки прийти и занять лучшие места не получится. Но, потратив достаточное количество времени и усердия, вполне можно изучить все материалы, которые мы выкладываем на сайте DANO, и показать очень хорошие результаты.
Кроме знания языков программирования и знания математической статистики, без которых нельзя войти в профессию, для хорошего аналитика важно уметь задавать правильные вопросы, уметь смотреть под разными углами на различную информацию; важна очень сильная дотошность, желание докопаться до истины, чтобы потом из этого сделать какие-то осознанные выводы. Потому что одно дело – это видеть какие-то зависимости, а другое дело – понимать, почему это так, чтобы знать, как это исправить.
В ходе серии защит, которые шли параллельно для четырех комиссий, члены жюри оценивали выступления команд по следующим критериям: предварительный анализ данных, гипотеза и механизм проверки, корректность и оригинальность, итоговая интерпретация статанализа, выводы, перспективы и применимость, визуализация результата, командная работа, логика презентации.
1 место заняла команда №15 из Москвы в составе: Данис Динмухаметов, Герман Иванов, Андрей Михайлов, Андрей Хлопотных, Арсений Чугунов.
2 место у команды №6 из Москвы в составе: Илья Демидов, Екатерина Комкова, Алексей Нестеров Алекс Озйигит, Артем Толстобров, Мария Худокормова.
3 место заняли сразу две команды с одинаковым количеством очков:
команда №20 в составе: Арина Бурдина, Илья Власов, Алексей Зенин, Василий Самохин, Сергей Щеглов команда №22 в составе: Кристиан Богдан, Илья Гурьев, Григорий Демидов, Святослав Ланских, Игнат Шаклеин.
Герман Иванов, участник команды №15, победителя хакатона (Москва)
Я часто участвую в хакатонах, это мой девятый хакатон. Для меня хакатоны DANO – это очень крутая возможность попутешествовать по стране. Я, кстати, впервые в Нижнем Новгороде. Был в Майкопе, прикольно отдохнул, до этого мы ездили в Екатеринбург, в Пермь. Каждый раз это новые эксперты, новый фидбэк, который позволяет очень сильно совершенствоваться, работать над ошибками и готовиться к финалу олимпиады. И в целом это довольно увлекательное мероприятие. Ездишь с друзьями, отдыхаешь и при этом узнаешь что-то новое.
Мы достаточно быстро пришли к нашей гипотезе: если говорить простым языком – на более дорогих машинах гоняют сильнее. На более дорогих машинах превышение скорости на 40 плюс км/ч встречается чаще, чем на 20-40 км/ч. Эта гипотеза была интересна, потому что превышение на 40 плюс – это очень опасное превышение. У нас есть законы, которые это пытаются предотвращать, и в разных странах есть разные практики, например, в Финляндии есть динамические штрафы, чтобы тоже бороться с этими превышениями. Наша гипотеза подтвердилась, и мы, естественно, делали предложение по применению, предлагали ввести систему динамических штрафов для России в зависимости от цены автомобиля.
Мы все работаем на языке Python со стандартными библиотеками для анализа данных – это Pandas, для графиков это Matplotlib и Seaborn, и SciPy для для матмоделей. Я изучал язык программирования Python на курсах, и много где его применял. Но по большей части мы готовимся сами, проходим онлайн-курсы, общаемся с экспертами, с менторами. Ну и опыт – это реально важно, он реально помогает в таких мероприятиях. Если говорить о soft skills, которые важны для аналитика, – это умение работать в команде, умение критически мыслить, умение визуализировать данные, погружаться в данные, знать тематику датасета. Также очень важно умение пользоваться открытыми источниками, находить информацию, использовать генеративные сети, наш любимый ChatGPT.
Илья Демидов, член команды №6 (Москва)
На хакатоне наша команда впервые, мы все друзья. Это была инициатива одного из моих друзей, и мы собрались и поехали. Здесь очень круто и очень приятно. Я обнаружил, что когда-то занимался анализом данных, но не придавал этому значения, потом это забылось, а сейчас понял, что это все мне знакомо. Мы использовали достаточно классические инструменты анализа данных – это Jupyter на ядре Python, библиотека Pandas и библиотека Matplotlib для построения графиков. Наша гипотеза была такая: доля рецидивистов (то есть людей, которые склонны к нарушениям и получили штраф более 1 раза за месяц) меньше среди условно «бедных», чем среди условно «богатых». Наша гипотеза подтвердилась, причем общая тенденция была видна на всех подвыборках, на которые мы смотрели. Чтобы хорошо анализировать данные, нужно даже не рациональное мышление, а просто математический взгляд на мир.
Ольга Мельникова, начальник отдела профориентации, олимпиад и конкурсов
Очень интересно и ответственно выступать в качестве площадки для проведения хакатона DANO. Это, с одной стороны, возможность быть частью большого проекта, отвечать за его реализацию в своем городе, перенять некий новый опыт в организации мероприятий такого масштаба, а, с другой стороны, возможность встретиться с талантливыми ребятами не только из Нижнего Новгорода, но и других регионов, показать им нижегородскую Вышку, погрузить их в нашу атмосферу. Мы старались сделать все, чтобы и участникам, и команде организаторов было комфортно работать, чтобы они получали удовольствие от самого процесса, и нам было очень приятно слышать слова благодарности и видеть улыбающиеся лица.
Победители хакатона получили подарки от организаторов и партнеров и возможность автоматически пройти во второй (отборочный) этап олимпиады DANO.