• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«На основе интеллектуального анализа данных можно спрогнозировать ситуацию с пандемией с точностью до 2,5%»

Математическая модель распространения COVID-19 в Нижегородской области, созданная Лабораторией Big Data в «Проектном офисе Стратегии развития Нижегородской области», вызвала горячее обсуждение в СМИ и социальных сетях. Исследование возглавила магистрант НИУ ВШЭ – Нижний Новгород Анастасия Попова, многократная победительница соревнований по машинному обучению, обладательница научной премии им. Ильи Сегаловича (Яндекс).


«На основе интеллектуального анализа данных можно спрогнозировать ситуацию с пандемией с точностью до 2,5%»

Настя, на каких данных основана модель распространения коронавируса? И насколько Лаборатория Big Data компетентна в подобных исследованиях?

Лаборатория Big Data, которой я руковожу, специализируется на разработке и сопровождении различных проектов развития региона, от транспортных моделей до научно-образовательных центров.
«Проектный офис Стратегии развития Нижегородской области» поставил перед Лабораторией задачу спрогнозировать развитие эпидемиологический ситуации. С помощью математических расчетов мы должны были предсказать, как повлияет на распространение COVID-19 в Нижегородской области повышенная сознательность людей или, наоборот, ослабление изоляции.
К работе над задачей мы привлекли не только программистов и аналитиков из своей команды, но и других экспертов, в частности, эпидемиологов (ПИМУ).


Соответствует ли развитие ситуации представленным прогнозам?

Наши расчеты основаны на данных от 6-7 апреля, когда в Нижнем было около 80 зараженных с ежедневным приростом около 20 человек. На текущий момент мы предсказали 204 заболевших в Нижнем, сегодня – 224 (данные на 13.04.2020), к пятнице мы прогнозируем около 500 человек, а к 24 апреля – 1600.

Сейчас индекс самоизоляции Яндекса упал (был более 4, сейчас 2). А кроме того, при этом остаются не учтены люди, которые ходят или ездят без включенных сервисов от Яндекса. Эффект несоблюдения самоизоляции мы увидим скачком дней через 10.


В чем основная сложность при построении подобной модели?

Самое сложное, что на течение эпидемии влияют не только принятые меры, которые часто меняются, но и сознательность людей. Поэтому все прогнозы достаточно условны и больше отвечают на вопрос «Что будет, если будут приняты такие меры?». Кроме того, есть ещё факторы, такие, например, как: доля бессимптомных переносчиков и иммунитет. Их оценить очень сложно. Пока мы движемся по варианту с неполной изоляцией, который ведет почти к 12 тысячам заболевших в ближайшее время. Кроме того, у нас есть модель, которая предсказывает количество заражений на ближайшее время по России в пределах 5-7 дней с ошибкой 1-2% и по Нижнему – с ошибкой до 10%.


Какие данные вы использовали? Были ли в анализ включены города, уже прошедшие через острую фазу (Ухань, например)?

Пандемия коронавируса с точки зрения анализа данных представляет собой уникальную возможность для работы не в лабораторных условиях, а «вживую». Было бы непрофессионально игнорировать мировой опыт. Для моделирования мы использовали несколько источников.
Во-первых, данные по большинству стран и регионов, где велась статистика по COVID-19, включающая в себя 297 регионов / областей мира и 21 провинцию Италии. Во-вторых, мы постоянно мониторим российские и зарубежные исследования COVID-19. И, как я уже сказала, мы постоянно находимся на связи с эпидемиологами Нижегородской области (ПИМУ).

Таким образом, данные для нашей модели собирались по всему миру, как агрегированные по странам, так и разделенные по регионам и более мелким субъектам за весь срок эпидемии. В анализ были включены несколько десятков городов и регионов для выявления наиболее схожих по эпидемиологической картине параметрам: принятым мерам, численности и плотности населения.


Текущий математический прогноз является краткосрочным или долгосрочным?

Период для наших исследований имеет ключевое значение. Именно он определяет использование тех или иных методов. При построении краткосрочной модели используется экстраполяция временного ряда экспоненциальной функции. При этом модель дает высокую точность до 7 дней вперед до выхода эпидемии на плато. Ошибка предсказания краткосрочной модели на 7 дней для всей России составляет менее 2.5%.


Если нужно сделать моделирование всего срока эпидемии, то для расчетов используем усложненную SEIR-модель, включающую в себя 11 дифференциальных уравнений, содержащих 14 переменных, которые отвечают за эпидемиологические особенности вируса, принятые меры, характеристики населенного пункта и готовность его системы здравоохранения.


Данные по Нижнему Новгороду активно накапливаются. Ситуация меняется каждый час. И все равно материала для построения точных моделей пока недостаточно.

Поэтому основное внимание направлено на проработку моделирования для всего срока эпидемии в Нижегородской области, коэффициенты которой подбирались по данным Китая (исключая Хубэй), поскольку там уже смогли побороть эпидемию и можно наблюдать все ее стадии, часть параметров подбиралась статистически и полагаясь на мнение эпидемиологов, остальная часть подбиралась исходя из временного ряда кумулятивного числа заболевших в Нижнем Новгороде (на момент построения модели в Нижнем Новгороде было 80 человек с ежедневном приростом 24 человека). Пока ошибка модели на 11.5 тысяч человек составляет 9% для прогноза на 7 дней.


Будете ли вы дорабатывать расчеты? Если да, то с какой периодичностью?

Мы работаем над моделью и стараемся обновлять по мере поступления новых данных. Это очень важно, так как в Нижнем только сейчас начался резкий рост заболевших. Коэффициенты и прогнозы уточняем каждый день. В данный момент работаем над усложнением модели, чтобы она учитывала большее количество мер по предотвращению эпидемии и их выполнению, а также такие факторы готовности системы здравоохранения, как количество оборудованных больничных мест и количество аппаратов ИВЛ.


Как Вы считаете, необходимо ли в данных условиях распространения пандемии COVID-19 оставаться на самоизоляции?

Для меня совершенно очевидно, что основными предпосылками для оптимистичной модели является своевременное введение почти полной домашней изоляции с 28 марта, индекс самоизоляции Яндекса 4.5 и сохранение домашней изоляции до конца эпидемии. Предпосылками развития реального сценария, соответственно, будут частичная отмена домашней изоляции с 6 апреля, индекс самоизоляции Яндекса 3.8 и сохранение домашней изоляции до конца эпидемии.

Я считаю, что необходимо максимально жестко самоизолироваться, иначе эпидемия станет неконтролируемой и пострадает значительно больше людей. Очень важно в эпидемию коронавируса действовать с опережением, ведь лаг от принятых мер, до их какого-либо эффекта –около двух недель. А за две недели могут заболеть тысячи людей. Поэтому считаю, что правительство Нижнего Новгорода поступило очень мудро, меры приняли заранее, когда было всего 11 больных. Это позволит избежать огромного числа жертв, но только при условии сознательности и ответственности всех нижегородцев.
К сожалению, индекс самоизоляции постепенно падает. Но я очень надеюсь на сознательность нижегородцев. Каждый должен понять: нарушая режим самоизоляции, он ставит под угрозу не только собственное здоровье, но и здоровье и жизни других людей.


Вы заканчиваете учебу в магистратуре по программе «Интеллектуальный анализ данных». Насколько практическими оказываются результаты Вашей научной деятельности?

Да, в этом году я заканчиваю магистратуру НИУ ВШЭ. Задачи, которые преподаватели ставили перед нами, были очень интересными и, что для меня особенно важно, – прикладными. Изначально мой научный проект был посвящен распознаванию эмоций человека в речи, благодаря чему можно было бы разработать способы повышения качества систем безопасности. А тема моей выпускной дипломной работы связана с распознаванием образов – увеличение информативности векторов признаков, извлеченных сверхточными нейронными сетями из изображений, с использованием подхода реидентификации людей. Мне нравится участвовать в проектах, которые способны оптимизировать процессы или предотвратить негативное развитие событий. Это мой способ изменить мир к лучшему.


Текст интервью: Юлия Гусева