Методы автоматического реферирования:
- Статистический: в данном методе ключевое слово – это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз.
- Задача: по формуле Кважн=Fm/Nn где
F – число повторений слова в тексте,
m – число абзацев, где есть это слово,
N – количество слов в тексте,
n – количество абзацев в тексте
составить алгоритм, позволяющий получить:- аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;
- словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.
- Словоупотребление – цепочка символов, заключённых между двумя пробелами.
- Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.
- Задача: по формуле Кважн=Fm/Nn где
- Алгоритм решения задачи:
- ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;
- Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;
- Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:
- Удаляется служебная и общепринятая лексика;
- Объединяются грамматические формы одного и того же слова;
- Объединяются синонимы;
- Удаляются слова, встреченные только в одном абзаце;
- Словарь потенциальных опорных слов делится (с помощью Кважн) на
- Словарь главных опорных слов;
- Словарь второстепенных опорных слов;
- Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.