Под автоматическим семантическим анализом понимается совокупность методов и приемов, с помощью которых можно путем строгой и однозначной формальной процедуры, реализуемой на компьютере посредством специально разработанных лингвистических алгоритмов, с достаточной точностью представить смысл произвольного высказывания на естественном зыке в виде последовательности символов, образующих некоторую формальную систему.
Принципиальная сложность проблемы синтаксического анализа состоит в том, что при изучении смысла приходится выходить за пределы языка, обращаться к внешнему, лежащему вне сферы языка миру. Исследования по формализации семантики проводятся в двух основных оформлениях. Исследования в рамках первого направления ведутся на абстрактном, дедуктивном уровне и имеют следующие цели: 1) установить место семантики в рамках более общей науки о знаковых системах – семиотики и определить отношения между семантикой и другими составляющими семиотики – синтактикой и прагматикой, построить модели человеческого мышления самого по себе и в связи с процессом коммуникации; 2) вывести универсальные закономерности образования понятий, связей между значениями слов и внутри высказывания между его составляющими; 3) сформулировать и разрешить на уровне абстракции другие проблемы, относящиеся к человеческому мышлению, а также к языковой деятельности человека в связи с мышлением и коммуникацией.
Исследования, ведущиеся в рамках второго направления носят эмпирический (индуктивный) характер. Здесь целью ставится решение конкретных прикладных проблем, связанных с формализацией семантики языковых выражений, а именно: проблем машинного перевода, автоматического информационного поиска, прикладных систем искусственного интеллекта.
Основу семантического описания языка составляют 2 системы (модели): модель синтагматических отношений между лексемами и модель парадигматических отношений между ними. Модель синтагматики призвана описать ограничения на сочетаемость лексических единиц в определенных синтаксических ролях. Парадигматический тип описания отношений представляет собой иерархическую классификацию лексики в рамках парадигматических рядов и носит название тезаурусов. Тезаурус языка – это многоуровневый тематический словарь-классификатор по устоявшимся отраслям знаний, отражающий несколько видов известных парадигматических отношений между словами (синонимические, родо-видовые, отношения «часть-целое» и т.д.). Наличие тезауруса позволяет, например, разрешать случаи лексической омонимии (полисемии), которые могут встречаться в тексте. Задача определения точного значения слова в тексте в большинстве случаев разрешима за счет включения каждого из его значений в соответствующую ветвь тезауруса. Относя текст к одному из разделов тезауруса, можно определить наиболее вероятное значение слова как значение, входящее в этот раздел.
Говоря о способах формализации семантики, нельзя не упомянуть о знаменитой модели «Смысл-текст», разработанной усилиями лингвистов Игоря Александровича Мельчука, Юрия Дерениковича Апресяна и Александра Константиновича Жолковского в 60-70хх годах. Данная модель опирается на понимание естественного языка как механизма, преобразующего заданные смыслы в соответствующие им тексты и заданные тексты - в соответствующие им смыслы. Более разработан в модели переход от смыслов к текстам, т. е. языковой синтез Модель предполагает систему уровней и правил перехода между ними. Непосредственно к семантике относятся описание семантического уровня и правил перехода к синтаксическому уровню. Семантический уровень включает в себя особого рода семантическое представление связного фрагмента речи без расчленения его на предложения и слова. Семантическое представление состоит из семантического графа и сведений о коммуникативной организации. Семантический граф состоит, в свою очередь, из вершин (точек) и соединяющих их дуг. Вершины помечаются символами элементарных смысловых единиц (семы), а дуги - символами связи между семами. При синтезе к семантическому представлению применяется действие семантического компонента. Семантический компонент производит следующие основные операции: 1) расчленяет семантический граф на фрагменты, которые соответствуют фразам, и установливает последовательности этих фрагментов; 2) Подбирает лексику на абстрактном уровне (подбирает обобщенные слова). Этот подбор заключается в вычленении таких фрагментов семантического графа, которым в данном языке может соответствовать отдельное слово; 3) Подбирает грамматические средства на абстрактном уровне, т.е. вычленяет такие фрагменты семантического графа, которые в данном языке выражаются с помощью грамматики, и перерабатывает их в предварительные грамматические характеристики при обобщенных словах; 4) Определяет общее синтаксическое строение фраз на абстрактном уровне (с помощью глубинно-синтаксических отношений).
Соответственно, при анализе семантический компонент выполняет обратные операции.
При синтезе семантическое представление подается на вход модели и соответствует множеству синонимичных текстов и соответствует множеству синонимичных текстов, получаемых в результате ее работы. При анализе же семантическое представление является конечным продуктом действия модели.
Описание семантического уровня подразумевает наличие семантического языка, который состоит из: 1) словаря, включающего элементарные семантические единицы (семы), промежуточные семантические единицы, соответствующие словам естественного языка, и символы-характерис-
тики коммуникативной организации; 2) правил образования, с помощью которых из единиц словаря
строятся семантические представления; 3) правил преобразования, задающих равносильность двух
семантических представлений (путем свертывания фрагментов графа в промежуточные единицы и развертывания последних).
Особую роль в работе семантического компонента модели играет словарь лексики естественного языка, называемый толково-комбинаторным словарем (часто используется сокращение ТКС).
Именно с помощью этого словаря вычленяются обобщенные слова. Словарь содержит различную информацию о слове, распределенную по нескольким зонам. Среди главных, с семантической точки зрения, зон – толкование, модель управления, а также стандартные и нестандартные лексические функции.
В модели управления семантические и синтаксические валентности одного слова сопоставляются друг другу. В идеале, для каждого слова в толково-комбинаторном словаре приводятся все слова, связанные с ним по смыслу.