Корпус – это собрание текстов в электронной форме, в котором можно осуществлять поиск слов, словосочетаний, грамматических форм, значений слов с помощью определенной поисковой системы. Разберем основные принципы работы на примере национального корпуса русского языка.
- Поиск может осуществляться в основном корпусе (содержит литературную прозу (художественную, нехудожественную, письменную, устную), параллельном корпусе (текст оригинала и его перевод на какой-либо язык), поэтическом, диалектном, акцентологическом, историческом и газетном.
- Также можно задать подкорпус, в котором указываются название произведения, автор, пол, год рождения, год создания работы, жанр (фантастика, детектив и др.), тип текста (отзыв, очерк интервью), тематику (путешествия, медицина, филология)
- Как известно, в русском языке одна и та же словоформа может выражать разные грамматические значения. Например, словоформа «сапог» может обозначать и. п. ед. ч. И р. П. мн. Ч. Это явление называется омонимией (его можно задать в подкорпусе)
- Подкорпус можно сохранить для дальшейшей работы
- Чтобы найти словоформу в корпусе, необходимо заполнить графу «поиск точных форм»
- Для поиска отдельной лексемы используется лексико-грамматический поиск, где можно найти сразу несколько слов на определенном расстоянии друг от друга, а также задать различные грамматические и семантические признаки (части тела, инструменты, мебель)
- Чтобы найти все лексемы, имеющие одинаковую конечную часть, нужно в зоне «Лексико-грамматический поиск» набрать эту конечную часть после знака «звездочка»
- Также в корпусе можно найти n-граммы – словосочетания из 2,3,4,5 слов