пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

Текстологические методы извлечения знаний (анализ учебников, анализ литературы, анализ документов). Алгоритм извлечения знаний от текста.

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на компоненты для выделения истинно значимых для реализации базы знаний фрагментов. К компонентам можно отнести: наблюдения; научные понятия; субъективные взгляды; общие места; заимствования.

Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое «погружен» текст. Различают микроконтекст и макроконтекст. Микроконтекст – это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац – в контексте главы и т.д. Макроконтекст – это вся система знаний, связанная с предметной областью (т.е. знания об особенностях и свойствах, явно не указанных в тексте).

На языке современного языкознания понимание – это формирование второго текста, т.е. семантической структуры.

Основные моменты процесса понимания текста

  • выдвижение предварительной гипотезы о смысле всего текста;
  • определение значений непонятных слов (т.е. специальной терминологии);
  • возникновение общей гипотезы о содержании текста;
  • уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям);
  • формирование смысловой структуры текста за счет установления внутренних связей между отдельными ключевыми словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний;
  • корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому);
  • принятие основной гипотезы.

Принципиальным моментом является наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Благодаря этому удается при понимании текста учесть основные признаки текста: связность, цельность и законченность.

Центральным моментом процесса является выделение «опорных», ключевых слов или «смысловых вех» в тексте и дальнейшее их связывание в единую семантическую структуру.

При анализе текста выделяют два вида связей – эксплицитные (явные связи) и имплицитные (скрытые связи). Эксплицитные связи выражаются во внешнем дроблении текста, они делят текст на параграфы с помощью перечисления компонентов, вводных слов типа «во-первых…, во-вторых…, однако и т. д.». Имплицитные связи между «смысловыми вехами» вызывают основное затруднение при понимании.

Семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, о мире, общих знаний о предметной области, которой посвящен текст. Таким образом, для адекватного понимания текста необходима предварительная подготовка.

Подготовкой к прочтению специальных текстов является выбор совместно с экспертами базового списка литературы, который постепенно введет аналитика в предметную область. В этом списке, как правило, содержатся учебники, фрагменты из монографий, популярные издания. После ознакомления с указанным списком целесообразно приступать к чтению специальных текстов.

Следует подчеркнуть, что процедура разбивки текста на части («смысловые группы»), а затем сгущение, сжатие содержимого каждого смыслового блока в «смысловую веху» является основой для любого процесса понимания. Представление текста в виде набора ключевых слов, передающих основное содержание текста, является методологической основой для проведения текстологических процедур извлечения знаний.

В качестве ключевого слова может служить любая часть речи (существительное, глагол, прилагательное и т. д.) или их сочетание. Набор ключевых слов – это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании.

Алгоритм извлечения знаний из текста

  1. Составление базового списка литературы для ознакомления с предметной областью и чтение по списку;
  2. Выбор текста для извлечения знаний;
  3. Первое знакомство с текстом (беглое прочтение), для определения значения незнакомых слов – консультации со специалистами или привлечение справочной литературы;
  4. Формирование первой гипотезы о макроструктуре текста.
  5. Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение «смысловых вех» (компрессия текста).
  6. Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или сжатого текста (реферата).
  7. Формирование поля знаний на основании макроструктуры текста.


18.12.2018; 13:36
хиты: 88
рейтинг:0
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь