пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

27. Структура и свойства информационно-поисковых языков. Системы индексирования.

 

Основной функцией любой документальной информационно-поисковой системы (ИПС) является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции документальной ИПС - проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы. В состав типичной документальной ИПС входят, как правило, четыре основные подсистемы:  Подсистема ввода и регистрации.  Подсистема обработки.  Подсистема хранения.  Подсистема поиска. Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:  создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);  обеспечение подключения к каналам доставки электронных документов;  распознавание, а при необходимости и преобразование формата электронных документов;  присвоение, электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен). Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору. Далее документы поступают на вход подсистемы обработки, которая производит индексацию документа стоится поисковый образ документа (ПОД), сохраняемый в индексе. При поступлении на вход системы запроса пользователя он преобразуется в поисковое предписание (ПП) и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового содержания (КСС). Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

Информационно-поисковый язык Система индексирования. Цель процесса индексирования. Информационно-поисковый язык (ИПЯ), знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный информационно-поисковый язык состоит из алфавита, правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным, удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система. В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. Индексирование, процесс выражения главного предмета или темы текста какого-либо документа в терминах ИПЯ. Применяется для облегчения поиска необходимого текста среди множества других. Проводится индексирование как целого документа, так и его части. Для индексирования нередко используются заглавия текстов. При индексирование опускаются сопутствующие предметы или темы. Это служит причиной того, что при поиске не найденными остаются тексты, для которых предмет или тема информационного запроса является не главной, а сопутствующей. Различают 2 основных типа индексирование — классификационное и координатное. При классификационном индексировании, или классифицировании, тексты в зависимости от их содержания включаются в соответствующий класс (один или несколько), в котором собираются все тексты, имеющие в основном одинаковое смысловое содержание. Каждому такому тексту присваивается индекс этого класса, служащий далее его поисковым образом. При координатном индексировании основное смысловое содержание текста выражается перечнем полнозначных слов, выбираемых либо из самого текста или его заглавия, либо из специального нормативного словаря. В первом случае такие лексические единицы называются ключевыми словами, а во втором — дескрипторам индексирования. Каждое ключевое слово или дескриптор обозначает класс, в который потенциально входят все тексты, где в выражения основного смыслового содержания входит это слово. При координатном индексировании смысловое содержание текста выражается как бы указанием его координат в некотором n-мерном смысловом пространстве. Основное преимущество координатного индексирования перед классификационным заключается в том, что координатное индексирование не создаёт никаких затруднений при поиске текстов по любому, заранее не предусмотренному сочетанию признаков. Цель процесса индексирования в документальных системах - приписать каждой единице хранения некоторое множество идентификаторов, отражающих содержание документа.

 


23.01.2015; 08:48
хиты: 83
рейтинг:0
Точные науки
информатика
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь