• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Информационный поиск и извлечение данных

2024/2025
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты

Преподаватели

Программа дисциплины

Аннотация

Дисциплина предназначена для студентов 4-го курса направления "Фундаментальная и прикладная лингвистика". Рассматриваются различные вопросы работы с большими языковыми моделями: от подготовки данных на основе открытых источников, представленных на платформе HuggingFace, до оценки качества модели на наборе автоматических метрик и тонкой донастройки модели на специфической задаче.
Цель освоения дисциплины

Цель освоения дисциплины

  • Уметь подготавливать датасет для оценки качества языковой модели
  • Уметь осуществлять инференс языковой модели
  • Уметь осуществлять оценку качества языковой модели
  • Уметь проводить тонкую настройку языковой модели
  • Уметь проводить оптимизацию языковой модели для её инференса
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные алгоритмы ранжирования
  • Знать принципы построения современных поисковых систем
  • Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
  • Понимать модель Vector Space Model
Элементы контроля

Элементы контроля

  • неблокирующий Устный экзамен
  • неблокирующий Лабораторные работы
    Рассматриваются современные нейросетевые языковые модели и компьютерные инструменты для работы с ними в решении повседневных задач компьютерного лингвиста
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 3rd module
    0.4 * Лабораторные работы + 0.6 * Устный экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017

Рекомендуемая дополнительная литература

  • Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
  • Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937

Авторы

  • Климова Маргарита Андреевна
  • Демидовский Александр Владимирович