Описание научного проекта группы
Аннотация проекта
Основной задачей научно-учебной группы является автоматическое извлечение интересов и характеристик пользователей в результате анализа мультимедийных данных (фото, видео, текстовые сообщения) их мобильных устройств. Акцент сделан на повышение вычислительной эффективности принятия решений для методов распознавании образов, основанных на глубоких нейронных сетях. В частности, будет исследовано применение теорий тернарных решений (three-way decisions) и гранулярных вычислений для последовательного анализа векторов признаков высокой размерности с выбором на каждом шаге только достаточно надежных классов. Для выбора таких классов может использоваться сравнение с порогом апостериорной вероятности принадлежности входного объекта к классу или минимального расстояния между входных объектов и эталоном из этих классов. При этом на последнем шаге для выбора решений среди небольшого числа отобранных классов могут использоваться более мощные (по сравнению с методами ближайших соседей) бинарные классификаторы, такие как one-vs-one SVM. Рассматриваются такие прикладные задачи, как идентификация и кластеризация лиц в фотоальбомах, детектирование объектов (предметы интерьера, еды, транспорт, спортивные принадлежности) на фото и видео. Будут исследованы основанные на распознавании лиц и детектировании текстов методы выделения публичных фотографий и видео, для которых высокоточные алгоритмы обработки могут быть реализованы на удаленном сервере. Предполагается, что публичные фото и видео не содержат отсканированные документы паспортов, билетов и т.п., а также лица из выделенных кластеров достаточно большого размера (родственники и знакомые, присутствующих на многих фотографиях). Планируется рассмотреть альтернативные методы анализа фотографий с предварительным автоматическим получением их текстовых описаний (image captioning), из которых интересы пользователей извлекаются с помощью методов обработки текстов, начиная от подсчета ключевых слов и заканчивая автоматической суммаризацией и группировкой описаний на основе их распределенных представлений. При анализе текстовых сообщений предполагается создание моделей пользовательских предпочтений и оценок, а также применение методик аспектного анализа тональности. Кроме того, будут исследованы способы повышения точности распознавания голосовых команд на многопользовательских мобильных устройствах с выбором акустической модели на основе предварительной идентификации характерных особенностей (пола, возраста) лица диктора по видеоданным. При этом для дальнейшего повышения точности распознавания будет использоваться оперативная настройка на переменный проблемно-ориентированный рабочий словарь.
Сроки проведения работы над проектом
Научно-учебная группа «Анализ мультимедийных данных пользователей мобильных устройств» в течение 2019 года реализует проект № 19-04-004 «Эффективные методы распознавания мультимедийных данных для задач анализа предпочтений пользователей мобильных устройств» в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» и в рамках государственной поддержки ведущих университетов Российской Федерации "5-100".
Цели и задачи
Цель работы группы – повышение вычислительной эффективности методов принятия решений при анализе мультимедийных данных пользователей мобильных устройств. Для достижения этой цели были поставлены следующие задачи:
1. Исследование возможности повышения вычислительной эффективности распознавания изображений на основе теории приближенных множеств за счет последовательного анализа иерархических представлений векторов признаков, извлеченных с помощью глубоких нейронных сетей.
2. Разработка эффективных вычислительных методов распознавания команд для систем голосового управления с идентификацией личности и характерных особенностей (пола, возраста) диктора по его видеоизображению.
3. Повышение вычислительной эффективности алгоритмов классификации мультимедийных данных для задач анализа предпочтений пользователя по его фотографиям, видео и текстовым данным.
4. Исследование известных методов автоматического порождения описаний изображений и обработка полученных текстовых описаний для автоматического анализа предпочтений пользователя по его фотоальбому.
5. Моделирование пользовательских предпочтений на основе анализа пользовательских сообщений в социальных сетях с применением распределенных представлений.
6. Исследование методов обнаружения публичных фото и видео на основе технологий распознавания лиц и детектирования текстов на изображениях.
7. Проведение экспериментальных исследований точности и быстродействия разработанных алгоритмов.
8. Разработка прототипов компьютерных систем принятия решения при распознавании мультимедийных данных и проведение с их помощью экспериментальных исследований точности и вычислительной эффективности разработанных алгоритмов.
Ожидаемые научные результаты исследований
1. Планируется разработать вычислительно эффективные методы распознавания образов с последовательным анализом иерархических представлений векторов признаков, извлеченных с помощью глубоких нейронных сетей, возможности повышения вычислительной эффективности распознавания изображений на основе теории приближенных множеств за счет последовательного анализа.
2. Планируется разработать эффективные методы распознавания команд для систем голосового управления с оперативной настройкой на переменный проблемно-ориентированный рабочий словарь и с идентификацией личности и характерных особенностей (пола, возраста) диктора по его видеоизображению.
3. Планируется разработать эффективные алгоритмы классификации мультимедийных данных для задач анализа предпочтений пользователя по его фотографиям, видео и текстовым данным.
4. Планируется исследовать методы автоматического порождения описаний изображений для фотографий пользователя с последующим анализом текстовых описаний с целью извлечения предпочтений пользователя.
5. Планируется разработать эффективные методы моделирования пользовательских предпочтений на основе анализа текстовых данных на русском языке.
6. Планируется исследовать методы определения публичных и персональных фото и видео на основе технологий распознавания лиц и детектирования текстов на изображениях.
7. Планируется провести экспериментальное сопоставление разработанных методов с существующими аналогами для задач распознавания образов.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.