Системы распознавания речи: Данной проблемой учёные занимаются около 70 лет, первая промышленная система была создана в Японии второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию.
Под распознавание речи ПК понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком.
Решению проблемы мешает:
- Отсутствие чётких теоретических представления, которые описывали бы весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;
- Обладание слитно произнесённой речью:
- Размытой границы слов:
- Влияния соседних звуков друг на друга;
- Нечётким выговором и даже исчезновением функциональных слов;
- Наличие в голосе говорящего экстралингвистической информации, указывающей на пол, возраст и т.д.;
- Большое значение в процессе речевого общения паралингвистических средств коммуникации:
- Кинесика (мимика, жесты);
- Фанация (характеристика голоса);
- Проксемика (расстояние между людьми).
Поэтому сегодня АРР может осуществляться только при определённых ограничениях:
- Распознавание изолированно произнесённых слов;
- Распознавание речи с настройкой на голос пользователя;
- Распознавание с опорой на небольшой, заранее определённый словарь.
IBM – лидер в продуктах такого рода с системой ViaVoice (140 слов в минуту). Популярной системой надиктовки является DragonSystem.
Алгоритм распознавания:
- Ввод устной речи, обработка данных (убор шумов);
- Деление звукового потока на сегменты;
- Выделение в каждом сегменте минимальной акустической единицы – слова;
- Сравнение выделенных единиц с эталонами.
Промышленные системы распознавания речи условно делятся на 4 группы:
- Средства речевого управления (ПК, телефон);
- Средства надиктовки текста;
- Информационно-справочные системы в диалоговом режиме в качестве автоответчика;
- Средства идентификации человека по образцу речи.