Публикации
В работе рассмотрена задача одновременного распознавания пола и возраста по видео лиц на основе сверточных нейронных сетей в расчете на эффективную реализацию на мобильных платформах. Исследованы способы агрегации решений, полученных для обработки каждого видео кадра, в том числе применение комитета классификаторов на основе теории Демпстера-Шафера. Предложен новый способ предсказания возраста в виде оценки математического ожидания нескольких наиболее вероятных возрастов. Проведено сравнение известных нейросетевых моделей со специально обученной модификацией сверточной сети MobileNet с двумя выходами. Представлены экспериментальные исследования для наборов данных Kinect, IJB-A, Indian Movie, EmotiW. Показано, что предложенный подход позволяет повысить точность распознавания пола и возраста на 2-5% и 5-10%, соответственно, по сравнению с известными аналогами.
Рассматривается задача организации информации в системах видеонаблюдения с помощью автоматического выделения групп треков, так, что каждая группа содержит изображения лица только одного человека. Исследованы методы агрегации векторов признаков каждого кадра, извлекаемых с помощью глубокой сверточной нейронной сети. Треки, содержащие одинаковые лица, группируются с использованием методов верификации лиц и алгоритмов последовательной кластеризации. В экспериментальном исследовании с набором данных YouTubeFaces рассматриваются несколько способов объединения отдельных кадров для получения дескриптора видеодорожки. Показано, что наиболее высокую точность показывает сравнение нормализованных признаков, полученных с помощью усреднения векторов признаков всех кадров каждого трека.
Исследуется задача определения пола и возраста по видеоизображению лица с использованием глубоких сверточных нейронных сетей. Проведен сравнительный анализ существующих методов агрегации решений, полученных для отдельных кадров. В целях повышения точности идентификации пола и возраста разработана информационная система, в которой реализованы несколько алгоритмов построения коллективов решающих правил. Проведено экспериментальное исследование для баз видеоданных IJB-A, Indian Movies и Kinect. Показано, что наиболее точные решения для распознавания пола и идентификации возраста достигаются, соответственно, с помощью среднего геометрического и математического ожидания оценок апостериорных вероятностей, полученных со слоя softmax сверточных нейронных сетей.
Рассматривается задача автоматической классификации эмоций в цифровом аудио сигнале. В работе рассматривается и верифицируется подход, в котором классификация звукового фрагмента производится с помощью рекуррентной нейронной сети c долговременно-кратковременной памятью. В качестве признаков использовались мел-кепстральные коэффициенты. Произведен численный эксперимент на открытом наборе данных Ravdess, включающий 8 различных эмоций: “нейтральный”, “спокойный”, “счастливый”, “грустный”, “злой”, “испуганный”, “отвращение”, “удивление” и проведено сравнение разных наборов признаков и разных архитектур сети.
В работе представлен метод анализа диалогов, с помощью глубокого обучения, со- бранных в социальной сети. Была использована выборка диалогов из социальных сетей, которая была размечена в соответствии с интенциями в каждом тексте. Были размечены направление интенции и тип интенции. Используя эту выборку и заранее натренированные вектора, представляющих слова, авторы оценили работу двух нейронных архитектур. В результате, авторами был произведен выбор модели для автоматического предсказания типа интенции и ее направленности для произвольного текста.
Рассматривается задача структурирования информации в программных системах видеонаблюдения с помощью группирования видеоданных, в которых присутствуют идентичные лица. Сделан акцент на эффективную кластеризацию видеопоследовательностей с использованием сверточных нейронных сетей для извлечения характерных признаков. Разработан новый алгоритм кластеризации фрагментов видео на основе технологий глубокого обучения и статистического подхода. Приведены предварительные результаты экспериментального исследования точности и быстродействия предложенного подхода.
Рассматривается задача построения интеллектуальных систем контекстной рекламы с автоматической настройкой на потенциальные предпочтения пользователя. Выполнен аналитический обзор современных публикаций, посвященных распознаванию пола и возраста по видеоизображению лица, в том числе на основе глубоких сверточных нейронных сетей. Проведен сравнительный анализ способов агрегации решений, полученных при распознавании каждого видеокадра. Приведены результаты экспериментального исследования их точности и быстродействия.
Рассматривается задача автоматической классификации эмоций в цифровом аудио сигнале. В работе рассматривается и верифицируется подход, в котором классификации звукового фрагмента сводится к задаче распознавания изображений. В качестве визуально представления использовались изображение спектрограммы и осциллограммы. Произведен численный эксперимент на открытом наборе данных Ravdess, включающий 8 различных эмоций: “нейтральный”, “спокойный”, “счастливый”, “грустный”, “злой”, “испуганный”, “отвращение”, “удивление”. Наилучшие результаты точности 64% показала комбинация “спектрограмма + свёрточная нейроная сеть VGG-11”.