Морфологический анализ – процедура, в результате которой из формы внешнего оформления слова в тексте получают информацию о его внутренней структуре. Существуют несколько десятков алгоритмов морфологического анализа для разных языков. Направления морфологического анализа:
- Анализ путем разделения словоформы на основу и предполагаемое окончание с последующей проверкой их проверкой на совместимость.
- Морфологический анализ по конечному буквосочетанию
- Для морфологического анализа могут использоваться универсальные математические модели морфологии в форме открытых систем уравнений, позволяющих путем вычислений осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ.
В основу построения алгоритмов морфологического анализа положено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слова. Эти классы называются морфологическими. Изменения форм слов могут носить различный характер. Они могут быть связаны как с изменением основы слова, так и с изменением его окончания. Изменение букв состава основы слова имеет место, например, в парах: сижу - сидишь, шел — шли, тренировка - тренировок, человек-люди и т.д.. Изменение окончаний является основным способом образования различных форм слов. А, например, в русском языке используется как изменение окончаний, так и изменение основ слов. Морфологические классы слов делятся на два вида: основоизменительные (характеризующие систему изменения основ слов) и флективные (характеризующие систему изменения окончаний).
Виды морфологического анализа:
- Морфологический анализ со словарем словоформ – используется для языков с бедной морфологией. Никакого членения слов при анализе не происходит. Здесь основную проблему представляет анализ слов, не найденных в словаре (например, если в словаре нет нашли данного слова, то, по крайней мере, нужно попытаться определить его часть речи, чтобы не исключать возможности грамматического анализа на следующем уровне (синтаксическом)), а также явление омонимии.
- Морфологический анализ со словарем основ. Этот вид МА используется для большинства европейских языков. В этом виде морфологического анализа используется словарь основ и вспомогательные таблицы. В словаре, соответственно, содержатся основы простых и сложных слов без внутренней флексии. Если слово имеет несколько форм основ, то все они включаются в словарь. Каждой основе ставится в соответствие сочетание кода соединительного класса и кода флективного класса, а основе, омонимичной с другими – серия сочетаний таких кодов. Морф анализ слова начинается с его флективного анализа, который производится с целью правильного выделения основы слова, замены букв состава основы ее порядковым номером по словарю и определения грамматической информации.
- Особое положение занимает способ автоматического морф анализа методом логического умножения, начало которому было положено в трудах Сергея Яковлевича Фитиалова. Основное понятие здесь – понятие словарной функции. Словарная функция - это функция, определенная на словоформах и сопоставляющая каждой словоформе некоторую информацию. Всегда имеется возможность задать значения словарной функции через таблицу значений, т.е. словарь словоформ. Однако существуют более экономичные способы задания этой функции. Так, ее можно представить в виде последовательности 4 операций: членение словоформы как цепочки букв на морфемные сегменты; замена словоформы как цепочки морфемных сегментов неупорядоченным множеством новых элементов - морфем; приписывание словоформе как множеству морфем некоторая информация; преобразование этой информации в требуемую окончательную информацию о словоформе.Каждой морфеме можно сопоставить информацию, получаемую в результате объединения информации о словоформах, в которые входит данная морфема. Такого рода объединение информации соответствует дизъюнкции в логике. Информация о словоформе получается как пересечение, или логическая конъюнкция, информации о морфемах, входящих в данную словоформу. Тем самым функция, определенная на морфемах-множествах, заменяется функцией, определенной на морфемах-элементах.Морф анализ методом логического умножения применяется к флективным языкам и предусматривает наличие словаря основ. Сущность метода и применение его к конкретным языкам можно видеть на примере алгоритма анализа русских словоформ, предложенного венгерским специалистом Д. Варгой. Сначала производится поиск слова в словаре основ. Если слово, имеющее флексию, отсутствует в словаре, то от него отбрасывается одна буква справа и поиск повторяется. При отрицательном ответе отбрасывается следующая буква и т.д. Отброшенные буквы образуют окончание и фиксируются. Каждая отброшенная буква считается элементарной единицей морф анализа. Ей приписывается булевый вектор – совокупность нулей и единиц, компонентов этого вектора. Число компонентов этого вектора равно числу грамматических категорий, которые могут быть выражены окончанием, частью кот является данная буква. Поскольку предварительно был произведен поиск по словарю основ и установлена часть речи анализируемого слова, имеется возможность приписывать одинаковым буквам, входящим в окончания разных частей речи (напр, буква -м в окончании существительного и прилагательного) приписывать разные векторы.
- Морф анализ без словаря («независимый» анализ) - производится без обращения к словарю, только за счет использования таблиц аффиксов и особого списка слов, не имеющих грамматического значения. Этот способ используется достаточно редко.