Корпус – это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме.
Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Национальный корпус имеет две важные особенности:
1) сбалансированный состав текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода.
2) корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка – главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов. В Национальном корпусе русского языка в настоящее время широко используются три типа разметки: метатекстовая (она характеризует текст в целом, с точки зрения его автора, жанровых и других особенностей), морфологическая и семантическая (морфологическая и семантическая разметки характеризуют не целый текст, а отдельное слово).
Национальный корпус предназначен в первую очередь для научных исследований лексики и грамматики языка. Другая задача корпуса – предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка)
Примеры использования основного корпуса:
- поиск слова, словосочетания или предложения в фиксированной форме. (для поиска неизменяемых слов, например, наречий, несклоняемых существительных, деепричастий, предлогов, фразеологизмов)
- поиск слова во всех возможных формах (лексико-грамматический поиск)
- поиск слова в нескольких определенных формах, например, глагол в формах повелительного наклонения (задав параметры в «грамматических признаках»)
- поиск слов, находящихся до или после определенного знака препинания.
- поиск словосочетаний из нескольких слов, где у каждого слова может быть задана грамматическая характеристика. Одно из слов, часть слов или все слова могут быть не конкретными словами, а любым словом с заданной грамматической или семантической характеристикой.
- создание подкорпуса (по произведению или автору; по жанру или тематике текстов; по времени создания текстов; месту и времени описываемых событий.
Вопросы для профиля «Межкультурная коммуникация»
Теория и практика межкультурной коммуникации