От рукописи к XML-файлу: как проект «Слово Толстого» превращает 90 томов в живую экосистему знаний
В нижегородском кампусе НИУ ВШЭ прошла встреча с лингвистом Анастасией Бонч-Осмоловской — создательницей одного из самых значимых цифровых проектов в области русской филологии. О том, как создавалась цифровая вселенная Толстого, почему важно сохранять даже зачеркнутые писателем слова и как студенты могут присоединиться к работе над наследием — в нашем материале.

В рамках проектов «Цифровой филолог» и «Куда ведут слова» в нижегородском кампусе НИУ ВШЭ состоялась встреча с лингвистом, исследователем цифровых гуманитарных наук и создательницей проекта «Слово Толстого» Анастасией Бонч-Осмоловской.
Проект «Слово Толстого» — это масштабная цифровая экосистема, посвящённая жизни и творчеству Льва Николаевича Толстого. В его основе лежит оцифрованное 90-томное академическое собрание сочинений писателя, и это далеко не просто отсканированные страницы. Участники проекта ответили на следующий вопрос: как организовать литературное наследие, когда происходит переход из бумажной книги (линейной по своей сути) в цифровое измерение, где можно выхватывать смыслы, связывать разрозненные записи, видеть слои редакторской работы?
Проект начался в 2013 году с идеи сделать тексты Толстого доступными каждому, однако путь от идеи до реализации оказался тернистым. Оцифровка старых томов, особенно рукописей и писем, породила огромное количество ошибок распознавания. Решение этой проблемы пришло неожиданное — через краудсорсинг.
«Выяснилось, что корректоры пришли сами, — рассказала Анастасия Александровна. — Около 4000 человек из 40 стран мира, хозяйки, студенты, энтузиасты, разрезали тексты на маленькие кусочки и вычитывали».
Так за две недели была проделана работа, которая в одиночку заняла бы годы. Главная философия проекта — бережное отношение ко всем слоям текста.
Анастасия Бонч-Осмоловская
У нас есть слово Толстого, а есть слово редактора, и мы стараемся максимально сохранить не только толстовское наследие, но и именно филологическое наследие, которое есть. Цифровая среда позволяет хранить в одном файле и первоначальный черновик, и редакторскую правку, и современные научные комментарии, оставляя их все на виду у исследователя.
Например, в черновике «Войны и мира» князь Андрей едет «безмысленно», а редактор исправил на «бессмысленно». В бумажном издании мы видим только итог. В цифровой же среде можно показать оба варианта, дать пользователю самому решить, какой оттенок мысли писателя здесь важнее. Цифровой текст принципиально открыт бесконечному количеству интерпретаций, и с помощью имеющихся в нашем распоряжении программ мы можем их хранить все одновременно.
Участники проекта — лингвисты, филологи, программисты и волонтёры — проводят титаническую работу по семантической разметке. Для этого используется стандарт TEI (Text Encoding Initiative), который позволяет не просто форматировать текст, но и вкладывать в него структурированную информацию: кто, кому и когда написал письмо, какое слово зачёркнуто, к какому историческому событию отсылает та или иная фраза.
Особенность проекта — в его установке на долговременное пользование. В цифровом проекте ссылка ведёт не на страницу, а на уникальный идентификатор конкретного объекта — письма, дневниковой записи, упоминания.
Это залог того, что данные переживут смену технологий и останутся читаемыми через 10, 50 или 100 лет.
Ещё одно ключевое понятие — «семья текстов». Например, все редакции и варианты романа «Воскресение» объединяются в одну «семью» с общим названием. Это позволяет наглядно увидеть эволюцию замысла, сравнивать разные версии и понимать логику творческого процесса.
«Мы переходим из двухмерного пространства книги в трёхмерное, а то и четырёхмерное пространство данных. У нас оказывается не читатель, а пользователь. Поэтому нужна более активная работа с источниками. Получается, что «Слово Толстого» — это не просто архив произведений и личной переписки. Это и «Хроника жизни Толстого», где на временной шкале собраны письма, дневники, события из биографии; и проект «Социальные сети Толстого», визуализирующий круг его общения; и даже экспериментальные «прогулки» с дополненной реальностью по местам, связанным с писателем. Каждый новый инструмент — это способ задать текстам новые вопросы и получить неожиданные ответы. Мы выросли из 90 томов, но не остановились на них. Всё, что мы делаем, — это попытка сохранить мысль, ценность и смысл, переведя их на язык нового времени», — отметила Анастасия Александровна.
Анастасия Бонч-Осмоловская подчеркнула, что проект открыт для сотрудничества и всегда нуждается в новых участниках.
Для студентов-филологов НИУ ВШЭ это редкая возможность поработать с рукописями. Не только оцифровывать их, но и участвовать в их комментировании, научиться основам TEI-разметки, разрабатывать новые форматы визуализации и взаимодействия с текстами, и, конечно, писать исследовательские работы на основе богатейшего цифрового корпуса.
Елена Богушевская, студентка 3 курса программы «Филология»
Для нас эта встреча – действительно редкий и невероятно ценный опыт, который выходит далеко за рамки обычной учебной практики. Мы узнали о том, как у классических литературных текстов появляется новая жизнь в цифровом пространстве. Этот процесс включает в себя не только аккуратную оцифровку, но и более глубокие, исследовательские задачи.
Мы узнали о новых форматах визуализации и взаимодействия с текстом, чтобы сделать его понятным и интересным для самой широкой аудитории.
Встреча завершилась живой дискуссией. Студенты интересовались техническими деталями, философией цифрового сохранения наследия и перспективах развития проекта. Ясно одно: цифровая филология — это не будущее, а настоящее, которое уже реализуется в стенах нижегородской Вышки благодаря подобным проектам.
Материал подготовлен студентками 3 курса программы «Филология»
Адилей Башировой и Еленой Богушевской.

