We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Research Seminar "Fundamentals of Data Analysis"

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
School of English Language
Course type:
Compulsory course
When:
2 year, 1-3 module

Instructors


Porshnev, Alexander

Программа дисциплины

Аннотация

Целями освоения дисциплины «Научно-исследовательский семинар» является изучение инструментов и подходов в современных исследований в области корпусной лингвистики и психолингвистике. Дисциплина включает в себя изучение трех разделов: Исследования в корпусной лингвистике, Исследования в психолингвистике, Математические модели в лингвистических исследованиях. В ходе курса учащиеся знакомятся с программами Zotero, GATE, RStudio, DMDX. Студенты решают и сдают на оценку семь задач. Итоговый контроль (экзамен) проводится в виде письменной работы. Блокирующие элементы контроля не предусмотрены. Для дистанционного сопровождения курса используется канал в MS Teams - https://teams.microsoft.com/l/team/19%3ac0418442aac24a2e82b9eaea57ed5a03%40thread.tacv2/conversations?groupId=3f9428ba-39c3-4e1d-ba35-34e28fcb9fc1&tenantId=21f26c24-0793-4b07-a73d-563cd2ec235f
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Научно-исследовательский семинар» является изучение инструментов и подходов в современных исследований в области корпусной лингвистики и пси-холингвистике. В результате освоения дисциплины студент должен: знать: • знать основные блоки автоматического анализа текста в программе GATE • знать основные подходы к проведение психолингвистических исследований • знать базовые методы статистического анализа уметь: • уметь строить последовательности обработчиков в программе GATE для решения иссле-довательских задач • уметь использовать программу DMDX для проведения психолингвистических экспери-ментов • уметь использовать открытую среду R для решения простейших задач анализа данных • уметь анализировать базовую научную литературу в данной области владеть: - навыками использования программы GATE для решения исследовательских задач в области корпусной лингвистики; - навыками обработки и интерпретации результатов эксперимента; - навыками использования стандартных методов корпусной лингвистики и моделей статистического анализа, также и их применением к решению конкретных исследовательских задач в области корпусной лингвистики и психолингвистики. Изучение дисциплины «Научно-исследовательский семинар» базируется на следующих дисциплинах: «Введение в лингвистику», «Социология», «Психология», «Программирование», «Семантика и корпусные методы исследования». Для освоения учебной дисциплины студенты должны владеть следующими знания-ми и компетенциями: • знать основные блоки автоматического анализа текста в программе GATE • знать основные подходы к проведение психолингвистических исследований • знать базовые методы статистического анализа • обладать навыками работы с программами GATE, DMDX, RStudio. Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: 1 Автоматическая обработка естественного языка; 2 Психолингвистика; 3 Функциональные и когнитивные модели в лингвистике.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет способами аннотирования текстов в программе GATE DEVELOPER, анализа текстов с помощью библиотек на языке Python
  • владеет способами сбора данных психолингвистических экспериментов и их обработки в программе DMDX.
  • Может подготовить, загрузить данные и провести корреляционный анализ в программной среде RStudio.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Исследования в корпусной лингвистике
    Подготовка к проведению исследования: написание обзора литературы, создание библиографии (библиографический менеджер Zotero). Информационные технологии в исследование текстов. Аннотирование текстов. Система с открытым доступом GATE Developer. Конвейер обработки. Онтологии. Преобразование JAPE. Использование библиотек на языке Python для создания конвейера обработки.
  • Тема 2. Исследования в психолингвистике
    Психолингвистические исследования: задачи, состояние, перспективы. Эксперименты в психолингвистике. Использование времени реакции и библиотеки PsychoPy
  • Тема 3. Математические модели в лингвистических исследованиях
    Роль математических моделей в современных исследованиях. Оценка качества модели. Математические модели в лингвистических исследованиях. Программа RStudio и применение языка R для статистического анализа и моделирования в лингвистических исследованиях.
Элементы контроля

Элементы контроля

  • неблокирующий Тест по GATE
  • неблокирующий Лабораторные работы по DMDX
  • неблокирующий Тест работа в Excel
  • неблокирующий Тест работа RStudio
  • неблокирующий Тест по Zotero
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.25 * Лабораторные работы по DMDX + 0.25 * Тест по GATE + 0.24 * Тест по Zotero + 0.01 * Тест работа RStudio + 0.25 * Тест работа в Excel
  • Промежуточная аттестация (3 модуль)
    0.25 * Лабораторные работы по DMDX + 0.25 * Тест по GATE + 0.24 * Тест по Zotero + 0.01 * Тест работа RStudio + 0.25 * Тест работа в Excel
Список литературы

Список литературы

Рекомендуемая основная литература

  • Cunningham, H., Gaizauskas, R. J., & Wilks, Y. (1996). A General Architecture for Language Engineering (GATE) - a new approach to Language Engineering R&D. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.cmp-lg%2f9601009
  • Gernsbacher, M. A., & Traxler, M. J. (2006). Handbook of Psycholinguistics (Vol. 2nd ed). Amsterdam: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=187294
  • Trejo, O., & C. Figliozzi, P. (2017). R Programming By Example : Practical, Hands-on Projects to Help You Get Started with R. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1682395

Рекомендуемая дополнительная литература

  • Christina Schoushkoff. (2019). Handbook of Psycholinguistics. [N.p.]: Society Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2014117
  • Cunningham, H., Tablan, V., Roberts, A., & Bontcheva, K. (2013). Getting more out of biomedical documents with GATE’s full lifecycle open source text analytics. Plos Computational Biology, 9(2), e1002854. https://doi.org/10.1371/journal.pcbi.1002854
  • Dąbrowska, E., & Divjak, D. (2015). Handbook of Cognitive Linguistics. Berlin: De Gruyter Mouton. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1000461
  • Gillespie, C., & Lovelace, R. (2016). Efficient R Programming : A Practical Guide to Smarter Programming. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1435808
  • McRae, K., Joanisse, M., & Spivey, M. (2012). The Cambridge Handbook of Psycholinguistics. New York: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=466689
  • Medeiros, K. (2018). R Programming Fundamentals : Deal with Data Using Various Modeling Techniques. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1904978
  • Ren, K. (2016). Learning R Programming. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1409189