пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

Автоматизированные словари

Машинные словари являются неотъемлемой частью любой системы автоматической обработки текстовой информации. Они могут представлять собой словари слов и/или словари словосочетаний, выражающих устойчивые научно-технические понятия. При составлении словарей необходимо стремиться к тому, чтобы они в максимальной степени отражали лексический состав текстов. Поэтому их нужно составлять по текстам достаточно большого объема (как минимум, по текстам объемом в несколько десятков миллионов лексических единиц). А такая работа может быть выполнена в разумные сроки только на основе широкого применения средств автоматизации.

Задача автоматизированного составления словарей словосочетаний, выражающих научно-технические понятия, сложнее задачи составления словарей слов, поскольку словосочетания в тексте формально не выделены и их границы "отмечены" лишь в сознании человека. Тем не менее, как показывают эксперименты, границы именных словосочетаний могут быть определены с удовлетворительной точностью на основе простых процедур синтаксического анализа, а возникающие при этом ошибки могут быть устранены с помощью статистических методов и путем последующего редактирования составленного словаря.

В системах автоматической обработки текстовой информации важной проблемой является проблема установления парадигматических отношений между понятиями, выраженными отдельными словами или словосочетаниями (отношений типа "синонимия", "род-вид", "целое-часть", "причина-следствие" и других устойчивых внеконтекстных ассоциативных отношений). Такие отношения может устанавливать человек, опираясь на свой интеллект и различного рода словарные пособия. Однако это очень трудная и трудоемкая задача. Поэтому при ее выполнении желательно использовать средства автоматизации.

Если мы не располагаем достаточно представительными формализованными описаниями слов, то их неформализованные или слабо формализованные описания широко представлены в различного рода толковых, терминологических и энциклопедических словарях. В этих словарях определяемая лексическая единица (слово или словосочетание) обычно соотносится с лексической единицей, выражающей более широкое (родовое) понятие и с лексическими единицами, характеризующими ее отличительные признаки. Эта информация может быть использована для выявления парадигматических отношений между лексическими единицами (в частности, между словами).

Другим источником выявления парадигматических отношений между словами могут служить информационно-поисковые тезаурусы (ИПТ). В тезаурусах обычно фиксируются парадигматические отношения между понятиями, выраженными отдельными словами и именными словосочетаниями (отношения типа "синонимия", "род-вид", "целое-часть" и другие ассоциативные отношения). Если понятия выражены отдельными словами, то зафиксированные в тезаурусе парадигматические отношения между ними могут быть использованы непосредственно; если же они выражены словосочетаниями, то парадигматические отношения между словами могут быть получены как логические следствия парадигматических отношений между словосочетаниями. Так, если два именных словосочетания находятся в отношении синонимии или "род-вид", то и опорные слова этих словосочетаний (в русском языке - первые слева существительные) тоже, как правило, находятся в таких же отношениях.

Опираясь на тезаурусы, толковые, терминологические и энциклопедические словари, можно выявлять парадигматические отношения между словами и составлять словари парных связей слов. Полученные таким образом словари могут быть обогащены с помощью процедуры логического вывода, в которой применяется правило: "если слово А связано отношением Х со словом В, а слово В связано таким же отношением со словом С, то слово А связано отношением Х также и со словом С". Эта процедура применима к транзитивным отношениям типа "синонимия" и "род-вид".

Парадигматические отношения между словосочетаниями можно устанавливать автоматически путем сопоставления их словарного состава. Так, если у двух именных словосочетаний совпадают словоизменительные основы их опорных слов (первых слева существительных) и словообразовательные основы остальных слов, то это словосочетания-синонимы; если же при совпадении словоизменительных основ опорных слов словообразовательные основы одного из словосочетаний полностью входят в состав словообразовательных основ другого, то мы имеем дело с отношением типа "род-вид". Причем первое словосочетание выражает родовое понятие, а второе - видовое.

Полноту установления парадигматических отношений между словосочетаниями можно увеличить, если воспользоваться для этой цели словарем парадигматических связей слов. Тогда отношения синонимии и родо-видовые отношения между словосочетаниями могут быть установлены не только в случае совпадения буквенных кодов основ слов, но и когда они не совпадают, при условии, что эти основы находятся в отношении "род-вид" или синонимии. Например, словосочетание А будет обозначать родовое понятие по отношению к словосочетанию В, если опорное слово словосочетания А обозначает родовое понятие или синоним по отношению к опорному слову словосочетания В, а все другие слова словосочетания А имеют свои корреляты среди слов словосочетания В в виде синонимов или гипонимов (слов, обозначающих видовое понятие).

Дальнейшее увеличение полноты установления парадигматических отношений между словосочетаниями может быть достигнуто, если при сопоставлении их лексического состава не требовать вхождения всех основ слов одного из словосочетаний (или их синонимов и гипонимов) в перечень основ слов другого словосочетания. Тогда наряду с отношениями типа "синонимия" и "род-вид" будут выявляться и другие ассоциативные отношения. Результаты такой обработки словосочетаний должны корректироваться человеком.


27.05.2014; 21:53
хиты: 140
рейтинг:0
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь