• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Научно-исследовательский семинар "Основы анализа данных"

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1-4 модуль

Преподаватель

Программа дисциплины

Аннотация

Целями освоения дисциплины «Научно-исследовательский семинар» является изучение инструментов и подходов в современных исследований в области корпусной лингвистики и психолингвистике. Дисциплина включает в себя изучение трех разделов: Исследования в корпусной лингвистике, Исследования в психолингвистике, Математические модели в лингвистических исследованиях. В ходе курса учащиеся знакомятся с программами Zotero, GATE, RStudio, DMDX. Студенты решают и сдают на оценку семь задач. Итоговый контроль (экзамен) проводится в виде письменной работы. Блокирующие элементы контроля не предусмотрены. Для дистанционного сопровождения курса используется канал в MS Teams - https://teams.microsoft.com/l/team/19%3ac0418442aac24a2e82b9eaea57ed5a03%40thread.tacv2/conversations?groupId=3f9428ba-39c3-4e1d-ba35-34e28fcb9fc1&tenantId=21f26c24-0793-4b07-a73d-563cd2ec235f
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Научно-исследовательский семинар» является изучение инструментов и подходов в современных исследований в области корпусной лингвистики и пси-холингвистике. В результате освоения дисциплины студент должен: знать: • знать основные блоки автоматического анализа текста в программе GATE • знать основные подходы к проведение психолингвистических исследований • знать базовые методы статистического анализа уметь: • уметь строить последовательности обработчиков в программе GATE для решения иссле-довательских задач • уметь использовать программу DMDX для проведения психолингвистических экспери-ментов • уметь использовать открытую среду R для решения простейших задач анализа данных • уметь анализировать базовую научную литературу в данной области владеть: - навыками использования программы GATE для решения исследовательских задач в области корпусной лингвистики; - навыками обработки и интерпретации результатов эксперимента; - навыками использования стандартных методов корпусной лингвистики и моделей статистического анализа, также и их применением к решению конкретных исследовательских задач в области корпусной лингвистики и психолингвистики. Изучение дисциплины «Научно-исследовательский семинар» базируется на следующих дисциплинах: «Введение в лингвистику», «Социология», «Психология», «Программирование», «Семантика и корпусные методы исследования». Для освоения учебной дисциплины студенты должны владеть следующими знания-ми и компетенциями: • знать основные блоки автоматического анализа текста в программе GATE • знать основные подходы к проведение психолингвистических исследований • знать базовые методы статистического анализа • обладать навыками работы с программами GATE, DMDX, RStudio. Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: 1 Автоматическая обработка естественного языка; 2 Психолингвистика; 3 Функциональные и когнитивные модели в лингвистике.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет способами аннотирования текстов в программе GATE DEVELOPER, анализа текстов с помощью библиотек на языке Python
  • владеет способами сбора данных психолингвистических экспериментов и их обработки в программе DMDX.
  • Может подготовить, загрузить данные и провести корреляционный анализ в программной среде RStudio.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Исследования в корпусной лингвистике
    Подготовка к проведению исследования: написание обзора литературы, создание библиографии (библиографический менеджер Zotero). Информационные технологии в исследование текстов. Аннотирование текстов. Система с открытым доступом GATE Developer. Конвейер обработки. Онтологии. Преобразование JAPE. Использование библиотек на языке Python для создания конвейера обработки.
  • Тема 2. Исследования в психолингвистике
    Психолингвистические исследования: задачи, состояние, перспективы. Эксперименты в психолингвистике. Использование времени реакции и библиотеки PsychoPy
  • Тема 3. Математические модели в лингвистических исследованиях
    Роль математических моделей в современных исследованиях. Оценка качества модели. Математические модели в лингвистических исследованиях. Программа RStudio и применение языка R для статистического анализа и моделирования в лингвистических исследованиях.
Элементы контроля

Элементы контроля

  • неблокирующий Тест по GATE
  • неблокирующий Лабораторные работы по DMDX
  • неблокирующий Тест работа в Excel
  • неблокирующий Тест работа RStudio
  • неблокирующий Тест по Zotero
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.25 * Лабораторные работы по DMDX + 0.25 * Тест по GATE + 0.25 * Тест по Zotero + 0.01 * Тест работа RStudio + 0.24 * Тест работа в Excel
Список литературы

Список литературы

Рекомендуемая основная литература

  • Cunningham, H., Gaizauskas, R. J., & Wilks, Y. (1996). A General Architecture for Language Engineering (GATE) - a new approach to Language Engineering R&D. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.cmp-lg%2f9601009
  • Gernsbacher, M. A., & Traxler, M. J. (2006). Handbook of Psycholinguistics (Vol. 2nd ed). Amsterdam: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=187294
  • Trejo, O., & C. Figliozzi, P. (2017). R Programming By Example : Practical, Hands-on Projects to Help You Get Started with R. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1682395

Рекомендуемая дополнительная литература

  • Christina Schoushkoff. (2019). Handbook of Psycholinguistics. [N.p.]: Society Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2014117
  • Cunningham, H., Tablan, V., Roberts, A., & Bontcheva, K. (2013). Getting more out of biomedical documents with GATE’s full lifecycle open source text analytics. Plos Computational Biology, 9(2), e1002854. https://doi.org/10.1371/journal.pcbi.1002854
  • Dąbrowska, E., & Divjak, D. (2015). Handbook of Cognitive Linguistics. Berlin: De Gruyter Mouton. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1000461
  • Gillespie, C., & Lovelace, R. (2016). Efficient R Programming : A Practical Guide to Smarter Programming. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1435808
  • McRae, K., Joanisse, M., & Spivey, M. (2012). The Cambridge Handbook of Psycholinguistics. New York: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=466689
  • Medeiros, K. (2018). R Programming Fundamentals : Deal with Data Using Various Modeling Techniques. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1904978
  • Ren, K. (2016). Learning R Programming. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1409189