Проект посвящен доработке методики определения достоверности (правдивости) информации по устной речи, мимике и жестам говорящего.
На данном этапе разработки (после года исследований) диагностический алгоритм достигает точности в 92%.
С научно-практической точки зрения определение уровня достоверности информации по русскоязычной речи рассматривается как в ряде отечественных судебных психолого-лингвистических методик (Енгалычев, В. Ф., Кравцова Г. К., Холопова Е. Н., 2003), так и в зарубежных исследованиях (DePaulo et al. 2003; Vrij et al., 2006; Hirschberg et al., 2005; Zhang et al., 2020).
Эти методики успешно применяются в судебной и исследовательской практике. Тем не менее традиционные методы (например, анализ только вербальных или только невербальных признаков) на русскоязычном показывают точность около 68,3% (Litvinova et al., 2017). Важно, что это исследование опиралось на письменные текстовые данные (Litvinova et al., 2017; Pisarevskaya et al., 2017), такие датасеты не сопоставимы с корпусами спонтанной устной речи.
Мультимодальные зарубежные модели (например, Zhang et al., 2020) достигают 88%. Тем не менее даже в международной практике речевые датасеты зачастую формируются не на основе специализированных открытых корпусов, а из таких источников, как телешоу (Zhang et al., 2020), полицейские допросы (Bachenko et al., 2008; Hirschberg et al., 2005), специфика которых не позволяет масштабировать результаты на естественную речь.
С учётом этого дефицита настоящее исследование направлено в том числе на восполнение пробела в виде создания и использования русскоязычного корпуса устной речи с правдивыми и ложными фрагментами, а также на повышение эффективности моделей распознавания обмана на основе устной коммуникации.
Преимущества созданной модели диагностики заключается в том, что команда проекта реализует комплексный подход (объединение 32 признаков из разных методик): исследуется устная речь, в том числе её просодия, мимика и жесты интегративно. Более того, методика адаптируется к русскоязычной речи и использует локальные данные. Также методика учитывает коммуникативный контекст, разделяя виды речи: подготовленную/спонтанную речь. Это улучшает точность диагностики.
На настоящем этапе разработки командой проекта собран датасет, состоящий из 148 видеозаписей общей длительностью ок. 792 мин. Для датасета созданы транскрипты с применением современных ASR-моделей (моделей распознавания устной речи), обученных на русском языке. Транскрипты проверены вручную. Датасет размечен методом модифицированной дискурсивной транскрипции (Жилина П.П. Создание корпуса устной речи для диагностических целей с использованием автоматических алгоритмов распознавания речи, KDH-2025, 2025) на трёх уровнях: речь (элементарные дискурсивные единицы и их признаки), мимика, жесты. Транскрипция валидизирована, просчитан коэффициент согласованности разметчиков. Проведено пилотное исследование, точность которого на определенных кластерах датасета достигает 92%. То есть в 92% случаев алгоритм верно определяет, правду или ложь продуцирует говорящий. В настоящий момент проводится регистрация РИДа полезной модели для текущего исследования