Принимайте участие в «Картту»! Контактная информация

Предмет «Русский язык и литература» входит в учебную программу Отделения современных языков.

P.O. Box 24 (Unioninkatu 40 B)
FI-00014 University of Helsinki

Хельсинкский аннотированный корпус русских текстов ХАНКО

In English

Проект по созданию Хельсинкского аннотированного корпуса русских текстов ХАНКО осуществляется на Отделении славянских и балтийских языков и литератур Хельсинкского университета. Предполагается, что корпус будет содержать морфологическую, синтаксическую и функциональную информацию о текстах общим объемом около 100 тыс. текстоформ, извлеченных из журнала "Итоги".
Проект осуществляется под руководством профессора Арто Мустайоки.
Основные принципы создания корпуса

  1. Направленность на широкий круг пользователей. При составлении корпуса ХАНКО, а также при разработке компьютерного интерфейса мы исходим из того, что корпус должен быть доступным не только узкому кругу специалистов, но и студентам, учителям русского языка и др. Это, разумеется, не значит, что мы полностью избегаем употребления лингвистических терминов, но выбор параметров поиска осуществляется так, что их знание минимизируется.
  2. Направленность на максимальный охват грамматической информации, а не на объем материала. Наша цель - предоставить для широкого пользования аннотированный корпус, содержащий более точную грамматическую информацию по сравнению с тем, как она представлена в существующих или создаваемых корпусах.
  3. Направленность на многоуровневую грамматическую информацию. Корпус ХАНКО будет содержать многостороннюю грамматическую информацию, включающую морфологические, синтаксические и функциональные (семантические) характеристики. В процессе поиска их можно будет комбинировать.
  4. Направленность на устоявшиеся лингвистические представления. С потребностью в доступности корпуса связано то обстоятельство, что при его создании мы опираемся на устоявшиеся теоретические концепции, которые используются в известных лингвистических трудах и/или учебной литературе по русской грамматике.
    Возможность более чем одной интерпретации языковых фактов. Любому исследователю, работающему с конкретным языковым материалом, приходилось сталкиваться с тем, что тот или иной языковой факт с трудом поддается однозначной характеристике. В таких случаях в корпусе будут отмечены все возможные варианты интерпретации. Такая "нечеткость", как нам кажется, облегчает поиск нужной для пользователя информации.
  5. Учет многокомпонентных единиц. Известно, что при машинной обработке текстов за исходную единицу часто принимается текстоформа, или набор знаков от «от пробела до пробела». Однако очевидно, что при таком подходе определенная часть важной лингвистической информации теряется (сослагательное наклонение глагола, сложное будущее глагола,аналитические формы прилагательных и наречий, составные числительные, аналитические формы местоимений. Не учитываются и служебные фраземы типа «в течение», «так как», «несмотря на», «друг друга» и др.Все эти единицы получили отражение в создаваемом нами корпусе. Полный список служебных фразем можно найти здесь.

Типы лингвистической информации, включенной в корпус ХАНКО.

  • Морфологическая информация. Полная морфологическая характеристика каждой текстоформы с возможностью указать спорные случаи, имеющие неоднозначную трактовку. Работа осуществляется автоматически с последующей ручной обработкой.
  • Синтаксическая информация. Эта часть аннотирования маркирует три типа единиц: словосочетание, клаузу, предложение.
  • Функционально-семантическая информация. Создание ХАНКО мыслится как составная часть проекта "Контрастивный функциональный синтаксис", возглавляемого проф. А. Мустайоки. В силу этого корпус ХАНКО будет содержать информацию о семантических категориях русского языка, список которых разрабатывается научным коллективом под руководством проф. А. Мустайоки.

Корпус ХАНКО создается поэтапно. Результаты морфологического и синтаксического аннотированния доступны здесь.