пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

Назначение и возможности систем автоматического чтения текста

Системы автоматического чтения текстов: Для быстрого и качественного ввода текста в ПК используется сканер, работающий по принципу фотоаппарата. Чтобы «понять» текст, то бишь перевести графику в цифровой вид, нужна система автоматического распознавания текста.

OCR (Optical Charester Recognition) – компьютерная программа, позволяющая преобразовывать текст бумажного носителя в электронный текстовый файл.

Основные принципы работы системы:

  1. Целостность (объект описывается как целое с помощью значимых элементов и отношений между ними);
  2. Целенаправленность (распознавание строится как процесс выдвижения и целенаправленной проверки гипотез);
  3. Адаптивность (способность компьютерной системы к самообучению).

Этапы работы системы FineReader:

  1. Сканирование (получение графического образа документа;
  2. Распознавание текста страницы:
    • Анализ графического макета страницы (выделение областей для распознавания, выделение в тексте строк и отдельных символов);
    • Распознавание каждого символа на основе различных алгоритмов распознавания;
  3. Проверка орфографии;
  4. Сохранение.

Алгоритмы распознавания (классификаторы):

  1. Шаблонные (шрифтозависимые) – растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот, у которого наименьшее количество точек отличается.
  2. Шрифтонезависимые:
    • Признаковые (позволяют анализировать не всё изображение знака, а лишь некоторые признаки, вычисляется по формулам, не отвечает принципу целостности);
    • Структурные (содержат информацию не о точечном изображении символа, а о правилах начертания (или структуры). Структурными элементами являются составляющие символ линии, однако данный метод чувствителен к дефектам изображения).

В FineReader работают все алгоритмы, экспертная система, встроенная внутрь ядра, сама выбирает нужный алгоритм.

Возможности OCR:

  1. Во время сканирования система автоматически подбирает яркость, фрагментирует каждую страницу, распознает символы текста;
  2. Позволяет распознавать печатные символы (»200 языков), рукопечатные и рукописные тексты.
  3. Способность самообучаться и распознавать плохо пропечатанные символы.
  4. Распознавание изображения, полученного с помощью цифрового фотоаппарата, а также файлы в формате PDF.

Развитие OCR идёт в направлении повышения точности распознавания текстов низкого качества, распознавание рукописного текста, выделение текстовой информации на фоне шумов, а также интеграций OCR-систем с различными программами обработки информации.


25.06.2014; 22:18
хиты: 113
рейтинг:0
Точные науки
информатика
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь