• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Unstructured Data Analysis

2021/2022
Academic Year
ENG
Instruction in English
4
ECTS credits
Course type:
Elective course
When:
2 year, 1, 2 module

Course Syllabus

Abstract

This course focuses on applied methods and existing tools for information retrieval: web scrap-ing, data preprocessing, natural language processing. All methods considered in this course require basic knowledge of discrete mathematics and probabilistic theory . For instance, most NLP and IR methods use conditional probability. In this course, we show the implementation of contemporary approaches in existing software packages (preferably in the python frameworks), and demonstrate how these methods can be used for the solution of some real-world problems.
Learning Objectives

Learning Objectives

  • Show the implementation of contemporary approaches in existing software packages (preferably in the python frameworks), and demonstrate how these methods can be used for the solution of some real-world problems.
Expected Learning Outcomes

Expected Learning Outcomes

  • Знать и применять базовые методы обработки и анализа текстов
  • Уметь решать задачи, связанные с моделированием языка
  • Уметь решать специализированные задачи на текстовых данных
  • Знать этические аспекты обработки текстов
Course Contents

Course Contents

  • Введение. Статистический анализ текстов
    Основные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов. Описательные статистики, оцениваемые по тексту. Методы излечения ключевых слов и словосочетаний. Закон Хипса, Закон Ципфа. Токенизация на основе регулярных выражений. Обучаемая сегментация предложений.
  • Векторные модели представления слов
    Векторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в век-торной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дири-хле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факто-ризация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
  • Классификация текстов
    Задачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText. Аугментация данных. Классификация при небольших объемах размеченных данных.
  • Классификация последовательностей
    Задача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB раз-метка, IOBES разметка. Условные случайные поля. Рекуррентные нейронные сети. Модели последовательностей на основе сверточных сетей и трансформеров. Переход от токенизации к BPE кодированию.
  • Предобученные языковые модели
    Предобученные языковые модели на основе рекуррентных нейронных сетей и трансформеров. Архитектуры ELMo, BERT, ULMFit, XLNET, GPT2 и др. GLUE оценка.
  • Синтаксический анализ
    Задача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Корпус. Universal Dependencies. Парсинг зависимостей. Архитектура SyntaxNet и архитектура UDPipe.
  • Машинный перевод
    Статистический машинный перевод. Нейросетевой машинный перевод и модели класса энкодер-декодер. Механизм внимания.
  • Генерация текстов
    Контролируемая генерация тектов. Диалоговые системы общего назначения.
  • Разметка данных, активное обучение.
    Системы разметки данных. Краудсорсинговые платформы. Коэффициенты согласия аннотаторов. Стратегии активного обучения.
  • Вопросное-ответные системы
    Типология вопросно-ответных системы. Архитектуры BiDAF, QANet, DRQ&A. Машинное чтение. Задача SQUAD.
  • Мультимодальные методы
    Задачи, связывающие анализ изображений и анализ текстов. Распознование текстов [optical character recognition].
  • Мультиязычные методы
    Перенос обучения между различными предметными областями. Перенос обучения с одного языка на другой.
  • Обработка текстов в медицине
    Анонимизация и подготовка медицинских текстов к анализу. Обзор задач, возникабщих при анализе медицинских текстов. Источники данных, онтологии, таксономии и графы знаний в медицине.
  • Информационный поиск
    Современный поисковые системы: индексация, поиск по векторному представлению. Связь с вопросно-ответными системами и рекомендательными системами.
  • Этические вопросы в обработке текстов
    Предвзятость в предобученных моделях и способы ее компенсации. Детектирование ложных нвоостей и пропаганды.
Assessment Elements

Assessment Elements

  • non-blocking Cumulative mark for the work during the modulus
  • non-blocking Final exam
Interim Assessment

Interim Assessment

  • Interim assessment (2 module)
    0.4 * Cumulative mark for the work during the modulus + 0.6 * Final exam
Bibliography

Bibliography

Recommended Core Bibliography

  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399

Recommended Additional Bibliography

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157