RussNet
С 1999 г. на кафедре математической лингвистики исследовательская группа под руководством И. В. Азаровой ведет работы по проекту RussNet – созданию русской версии компьютерного словаря типа WordNet.
Наполнение структур RussNet осуществляется следующим образом: сначала исследуется ядро лексики русского языка – наиболее частотные слова с наиболее общим значением, затем полученные иерархические структуры расширяются за счет менее употребительной лексики.
Структура RussNet
Дополнительно в структуру RussNet внесены следующие элементы, позволяющие фиксировать специфическую для русского языка информацию:
- расширен набор собственно семантических отношений за счет введения инхоативных (относящийся к «акционсарту» - лингв. категория залога, указывающая на временной способ протекания процессов и действий (напр., начало - инхоативный, длительность - дуративный, завершенность - перфективный, повторяемость - итеративный)) отношений и выделения конверсии в самостоятельное отношение;
- вводится набор семантико-деривационных и семантико-грамматических отношений;
- основными единицами структуры RussNet, на которых задаются семантико-деривационные и семантико-грамматические отношения, являются составляющие синсетов – лексико-семантические варианты слов;
- введено описание валентностной структуры глаголов, включающее как семантические, так и поверхностно-грамматические атрибуты;
- прилагательные организованы в иерархические структуры на основе их сочетаемости с существительными.
В рамках RussNet отношение синонимии устанавливается между лексико-семантическими вариантами слов, которые
- принадлежат одной части речи,
- имеют сходные значения,
- могут быть взаимозаменяемы в контексте.
В RussNet члены синсета оказываются упорядочены в соответствии с частотой их появления в текстах: от нейтральных абсолютных синонимов – к эмоционально и стилистически окрашенным.
Отношение антонимии связывает синсеты, которые противопоставляются по наиболее существенному компоненту значения. Антонимические отношения, устанавливающиеся между членами синсета, которые
- принадлежат одной части речи
- имеют общую часть значения – принадлежат одной лексико-семантической группе,
- имеют общий гипероним,
- противопоставляются по существенному признаку значения,
- взаимозаменяемы в контексте под отрицанием или в противительной конструкции.
Меронимия, каузация, лексический вывод, конверсия
Типичным для тезаурусных представлений является отношение меронимии ("часть - целое"). Менее типичными для тезаурусных представлений являются такие отношения в глагольной лексике, как каузация (каузативный глагол — результирующее состояние каузации, например, убить - умереть, высушить - стать сухим и т. п.); отношение сложного действия и его части, оно было названо отношением лексического вывода (например, спать - храпеть, красить - мазать и т.п.); отношение пресуппозиции (действие -- необходимое предыдущее действие, например, выиграть - играть, развязать - завязать).
Синтагматические отношения. В рамках EuroWN помимо парадигматических отношений представлены и различные синтагматические отношения, связывающие слова, которые принадлежат различным частям речи: прилагательные и существительные, глаголы и существительные, глаголы и прилагательные, и т. п., что дает возможность использовать WordNet и для контекстного поиска:
- для ЛСВ глагола указываются грамматические структура валентностей;
- для ЛСВ прилагательных указываются классы существительных, сочетаемость с которыми можно предсказать, исходя из значения прилагательных.
Семантико-грамматические и семантико-деривационные отношения. Для лексики русского языка, особенно существительных и глаголов, характерно многообразие и высокая продуктивность словообразовательных моделей (доля мотивированной лексики составляет в русском языке около 85 %). В рамках RussNet был введен ряд особых семантических отношений, предполагающих обязательное формальное выражение на грамматическом или деривационном уровне. Специфика данных отношений заключается в том, что они устанавливаются между членами синсетов – лексико-семантическими вариантами слов.
Деривационная синонимия - отношение, связывающее нейтральное слово и его экспрессивные, эмоционально окрашенные дериваты, например, старик1 - старикан, старик - старичок. Такие слова обладают тождественным референциальным значением, различия между ними касаются только отношения говорящего к референту. Слова с такой коннотацией, как правило, не взаимозаменяемы в контексте. Экспрессивные синонимы включаются в тот же синсет, что и нейтральное слово (например,