Автоматическое распознавание устной речи

Системы распознавания речи: Данной проблемой учёные занимаются около 70 лет, первая промышленная система была создана в Японии второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию.

Под распознавание речи ПК понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком.

Решению проблемы мешает:

Отсутствие чётких теоретических представления, которые описывали бы весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;
Обладание слитно произнесённой речью:
Размытой границы слов:
Влияния соседних звуков друг на друга;
Нечётким выговором и даже исчезновением функциональных слов;
Наличие в голосе говорящего экстралингвистической информации, указывающей на пол, возраст и т.д.;
Большое значение в процессе речевого общения паралингвистических средств коммуникации:
1. Кинесика (мимика, жесты);
2. Фанация (характеристика голоса);
3. Проксемика (расстояние между людьми).

Поэтому сегодня АРР может осуществляться только при определённых ограничениях:

Распознавание изолированно произнесённых слов;
Распознавание речи с настройкой на голос пользователя;
Распознавание с опорой на небольшой, заранее определённый словарь.

IBM – лидер в продуктах такого рода с системой ViaVoice (140 слов в минуту). Популярной системой надиктовки является DragonSystem.

Алгоритм распознавания:

Ввод устной речи, обработка данных (убор шумов);
Деление звукового потока на сегменты;
Выделение в каждом сегменте минимальной акустической единицы – слова;
Сравнение выделенных единиц с эталонами.

Промышленные системы распознавания речи условно делятся на 4 группы:

Средства речевого управления (ПК, телефон);
Средства надиктовки текста;
Информационно-справочные системы в диалоговом режиме в качестве автоответчика;
Средства идентификации человека по образцу речи.