Первые попытки создания устройств, способных воспринимать и анализировать звучащую речь предпринимались в 40-е года ХХ века, и связаны они с появлением т.н. спектральных анализаторов — электрических устройств, позволяющих анализировать спектральные характеристики речевых звуков. В СССР в это время было создано первое техническое устройство, которое могло распознавать гласные русского языка на основе разности энергии в 14 частотных полосах.
Для дальнейшего развития автоматического распознавания речи большое значение имели т.н. метод динамической спектрографии ("Видимая речь"), а также широкое использование соответствующей аппаратуры в фонетических исследованиях. К концу 50-х годов был накоплен большой исследовательский материал, который свидетельствовал о сложной природе соответствия между привычными для лингвистов представлениями речевых отрезков в виде последовательности фонем или аллофонов и физической реальностью звучащей речи. Были обнаружены существенные различия между линейной упорядоченностью фонемных цепочек и физическим членением речевого сигнала, в котором эти цепочки реализуются. Еще сложнее оказалось соотношение между различительными признаками фонем и их физическими коррелятами: было показано, что один и тот же фонологический контраст имеет множественное артикуляционно-акустическое воплощение, которое сильно зависит от фонетического контекста, стиля произношения и других факторов.
Сейчас уже хорошо известны источники акустической вариативности звуковых единиц, одновременное действие которых чрезвычайно усложняет задачу автоматического распознавания речи. К ним относятся:
• особенности артикуляционной организации речи (ко-артикуляция и артикуляционная редукция целевых жестов, которые могут проявляться по-разному в зависимости от позиции слова во фразе и общих фонетических установок говорящего на тщательность или небрежность произнесения, темп речи и т. д.);
• постоянные индивидуальные особенности говорящего (междикторская вариативность, вызванная различиями в анатомических параметрах речевого тракта; пол и возраст; индивидуальные произносительные навыки; принадлежность к определенным фонетическим диалектам
• переменные индивидуальные особенности говорящего (внутридикторная вариативность, связанная с различиями в физическом и психоэмоциональном состоянии в разные моменты порождения речевых сообщений);
• технические условия записи речевого сигнала (тип микрофона, обычная или телефонная речь, специальная студия или сигнал на фоне бытового шума и т. д.)
Основной вывод, который был сделан в результате первых акустических исследований и неудачных попыток построения распознающих систем, сводился к тому, что распознавание речи принципиально не может быть осуществлено на основе небольшого набора акустических образцов (эталонов), соответствующих отдельным фонемам данного языка. В начале 60-х годов исследователи отчетливо осознали, что попытка имитировать с помощью технических устройств, в том числе компьютера, естественную способность человека воспринимать и понимать речевые сообщения представляет собой сложную задачу, решение которой требует и большего объема знаний, и более мощной технической базы. Это привело к образованию двух направлений в области создания распознающих систем:
Во-первых, была выделена упрощенная, но полезная с точки зрения практических применений задача распознавания ограниченного набора отдельно произносимых, не связанных по смыслу слов 20-50 единиц). Слова распознавались как в произношении одного, знакомого машине диктора (дикторозависимое распознавание), так и разных дикторов, в том числе и незнакомых дикторонезависимое распознавание).
Во-вторых, от чисто звукового (фонетического) распознавания исследователи стали постепенно переходить к задаче декодирования языковой структуры слитного речевого сообщения с использованием разных источников лингвистических знаний (фонетических, словарных, синтаксических и семантических).
Разработки в обоих направлениях активно велись в 70-е и заложили основы тех методов распознавания, которые применяются в современных системах.
Распознавание ограниченного набора слов
Главной опорой распознавания в этом случае является ограниченный словарь (наиболее популярный набор — список цифр, удобный для многих практических применений). Теоретически слово, вводимое в распознающую машину в виде речевого сигнала, может идентифицироваться двумя способами.
Первый способ предполагает предварительную сегментацию речевого сигнала на более мелкие сегменты (например, отрезки фонемной размерности или слоги). Затем на основе спектральных характеристик этих сегментов производится их полная или частичная фонетическая (фонемная) идентификация. Для этого используются либо спектральные эталоны звуковых единиц, полученные заранее на этапе предварительного обучения распознающей системы, либо правила фонетической интерпретации сегментов, которые базируются на различных акустических ключах, содержащихся в спектральной картине распознаваемого сигнала. Фонетическая (фонемная) цепочка, полученная в результате идентификации, сравнивается с единицами словаря, которые также представлены в виде фонетической (фонемной) записи. Цель сравнения — найти в словаре такое слово, которое обладает максимальным сходством с распознанной звуковой цепочкой. Наиболее подходящий словарный кандидат и есть окончательный результат работы распознающего устройства.
При втором способе слово распознается как целостный звуковой образ путем сравнения с акустическими эталонами слов, которые хранятся в памяти машины. Распознавание осуществляется на основе общих принципов математической теории распознавания образов. Сначала распознающая система обучается: на основе ряда дикторских произнесений для каждого слова из словаря формируется свой спектральный эталон. На этапе распознавания произвольные произнесения слов из этого же словаря сравниваются с эталонами. Работа такой системы не требует никаких специальных фонетических или лингвистических знаний. Однако серьезной проблемой становится выбор и вычисление меры сходства распознаваемого акустического сигнала и словарного эталона.
Большинство реальных систем, которые распознают ограниченный набор слов, базируются на втором подходе. В его рамках были разработаны методы оценки сходства между входными произнесениями слов и эталонами, которые учитывают возможные различия между разными произнесениями одного и того же слова по времени, амплитуде и спектральным характеристикам.
Распознавание слитной речи.
В начале 60-х годов исследователи, работавшие в области автоматического распознавания речи, отчетливо сознавали сложность распознавания слитно произнесенных фраз, построенных на использовании больших словарей. Было признано, что обработка слитной речи требует, во-первых, перехода от распознавания слов как целостных звуковых образов к распознаванию звуковых единиц, меньших слова (например, фонем или слогов) и, во-вторых, учета фонетических, синтаксических и семантических ограничений, определяющих возможные языковые структуры речевых сообщений. Технологический анализ проблемы показал, что для распознавания слитной речи необходим соответствующий уровень развития компьютерной техники и математического обеспечения. Первые попытки в этой области исследований были сделаны только в начале 70х годов.
Наибольшее влияние на дальнейшее развитие АРР оказали исследования, выполненные в 1971-76 гг. в рамках государственной программы ARPA (advanced research project agency) объявленной Управлением перспективных исследовательских проектов министерства обороны США. Перед исследовательскими группами нескольких ведущих научных центров США была поставлена одна и та же задача: создать дикторонезависимую систему распознавания слитной речи на основе словаря не менее чем из 1 ООО слов. На синтаксис распознаваемых высказываний при этом налагались определенные ограничения. К 1976 году было создано несколько систем, лучшей из которых была признана система HARPY, разработанная университетом Карнеги-Меллона.
Стратегия распознавания речи системой HARPY может быть названа “анализ через синтез”.
В этой системе реализована интегрированная сетевая структура, в которой лингвистические знания (фонетические, фонологические, лексические и синтаксические) объединены в порождающую модель допустимых произношений распознаваемых фраз. Сначала строится сеть слов, создающая допустимые последовательности слов. Узлами сети являются слова из разрешенного словаря, а любой путь в ней соответствует допустимому предложению (из разрешенного набора синтаксических конструкций). Затем каждый узел (слово) заменяется сетью произношений, представляющих возможные произносительные варианты слова (с учетом фонетических изменений на стыках слов и чередований внутри слова при беглой речи). Произношение слов описывается фонетической транскрипцией с использованием небольшого набора аллофонов. В системе HARPY аллофоны были представлены в памяти компьютера 98 различными спектральными эталонами.
В конечном итоге возможное произнесение любой допустимой последовательности слов, порождаемое сетью, задается в виде последовательности аллофонных спектральных образцов. Далее система HARPY анализирует и оценивает степень сходства ожидаемого спектрального образа всего предложения с распознаваемым речевым сигналом. Для этого сигнал преобразуется сначала в последовательность коротких псевдо-стационарных отрезков, которые выделяются при первичном спектральном анализе распознаваемого предложения.
Методы вычисления акустического расстояния между спектральным представлением предложения, которое порождается машиной, и распознаваемым речевым сигналом принципиально не отличаются от того, что делается при распознавании ограниченного набора слов-эталонов, хотя в целом задача значительно усложняется.
По мнению экспертов, существенным вкладом системы HARPY в решение проблемы распознавания речи стало то, что она экспериментально подтвердила не только важность, но и возможность использования различных лингвистических ограничений для распознавания слитной речи. Было показано, что стратегия "анализ через синтез" с учетом лингвистических ограничений дает гораздо меньше ошибок, чем "чистое" акустико-фонетическое распознавание с последующим поиском и подбором слов-кандидатов из машинного словаря.
Дальнейшие исследования в области автоматического распознавания речи были продолжены в рамках двух подходов: лингвистического и статистического.
Представители лингвистического подхода подчеркивают необходимость более широкого использования фонетических и физиологических знаний в системах автоматического распознавания речи. По их мнению, неудачи акустико-фонетического распознавания в различных системах АРР обусловлены двумя причинами: 1) использованием слишком упрощенных представлений о соотношении речевого сигнала и его фонемного (аллофонного) отражения в языке; 2) применением таких способов первичной акустической обработки речевого сигнала, которые слишком далеки от того, как это осуществляется в слуховой системе человека.
Разработка лингвистически ориентированных распознающих систем привела к формулировке следующих важных рекомендаций:
• первичная акустическая обработка речевого сигнала должна основываться на сведениях о свойствах периферического слухового анализатора; должна быть реализована возможность выделения акустических событий и признаков, которые обнаруживаются слуховой системой человека, по крайней мере, в известном на сегодня объеме;
• на ранних этапах применения фонетических знаний не следует добиваться полного фонетического распознавания неизвестной фразы. Вместо этого нужно выделять надежные акустические признаки звуковых единиц (признаки главных классов и способов образования) и использовать их для первичной сегментации речевого сигнала, а также для отбора из машинного словаря системы наиболее подходящих слов-гипотез;
• необходимо учитывать просодическую информацию, прежде всего для определения ударных слогов, которые могут быть подвергнуты детальному фонетическому декодированию и использоваться далее в целях ограничения возможного набора слов-гипотез;
• каждое слово-гипотеза, прошедшее "мягкий" отбор по грубым классифицирующим признакам и фонемному составу ударного слога, должно далее проверяться (верифицироваться) на наличие в распознаваемом акустическом сигнале тех акустических признаков, которые задаются его полным звуковым обликом (транскрипцией).
Схема распознавания речи, основанная на этих принципах, выглядит следующим образом: получение входного речевого сигнала -> его спектральный анализ -> грубая фонетическая классификация -> лексический отбор -> детальная проверка словарных гипотез -> ответ.
Несмотря на привлекательность лингвистического подхода, в большинстве современных распознающих систем применяются статистические методы распознавания фонетических образов, впервые примененные в системе HARPY. Системы АРР, использующие статистические методы, включают обычно три компонента: произносительный словарь, модель языка и набор статистических акустических моделей звуковых единиц.
Произносительный словарь (или лексикон) представляет собой обычный словник, в котором для каждого слова дана фонетическая или фонемная транскрипция. Слово в лексиконе может иметь несколько транскрипций, отражающих фонетическую вариативность, которая не выводится из правил реализации фонем в слове.
Модель языка теоретически должна задавать семантические и синтаксические ограничения, которым подчиняется построение предложений в данном языке. Подобные ограничения могут описываться разными грамматическими моделями. В большинстве систем АРР используются т. н. Марковские статистические грамматики, которые задают возможную частоту встречаемости для различных последовательностей слов языка. Такие грамматики называются n-граммными. Например, биграммная модель задает вероятности для всех пар слов из Лексикона, триграммная модель — для всех троек слов и т. д. Статистические грамматики строятся автоматически на этапе обучения системы на материале больших текстовых массивов, вводимых в компьютер.
Наконец, центральное место в статистических системах АРР принадлежит статистическим акустико-фонетическим моделям, или скрытым Марковским моделям. В системах распознавания слитной речи на базе больших словарей основной тип используемой фонетической модели соответствует контекстной реализации фонемы или, в терминологии разработчиков таких моделей, трифóну. Трифон практически совпадает с лингвистическим аллофоном. Однако трифоны, в отличие от традиционных аллофонов, выделяются не на основе субъективных слуховых или артикуляционных критериев, а с учетом степени акустических различий и их влияния на результаты распознавания. Обычно набор Трифонов включает несколько тысяч контекстных реализаций, соответствующих фонемному инвентарю данного языка. Кроме Трифонов, в фонетическую базу распознавания могут включаться, если это необходимо, акустические модели и других речевых единиц — слогов, отдельных слов или даже фраз.
Фонетические модели, как и модели языка, строятся автоматически на этапе обучения распознающей системы. Для этого используются акустико-фонетические базы данных, которые представляют собой большие массивы звучащей речи, записанной от многих дикторов (не менее 100 человек), размеченной фонетически и снабженной транскрипцией (той же, которая используется для представления слов в лексиконе). Акустическим "сырьем" для обучения являются фрагменты речевых сигналов, выделенные в акустико-фонетической базе данных в качестве акустических соответствий транскрипционных фонетических символов. Перед обучением тренировочный акустический материал подвергается цифровому спектральному анализу, который в современных системах АРР учитывает особенности обработки звукового сигнала в слуховой системе человека. В результате спектрального анализа обучающий акустический сигнал преобразуется в последовательность временных срезов, каждый из которых содержит информацию о спектральной огибающей сигнала на небольшом временном интервале (до 20 мс). Спектральный срез называют также спектральным вектором.
После обучения система может работать как распознаватель звучащей речи. Распознавание произнесенного предложения начинается с его спектрального анализа. Полученная (наблюдаемая) последовательность спектральных векторов сравнивается с теоретически возможными последовательностями векторов, которые генерируются (порождаются) распознающей системой на основе произносительного словаря и машинных фонетических моделей. Специальные процедуры поиска и оценки акустического сходства, а также грамматического правдоподобия позволяют выбрать последовательность слов, которая обладает наибольшей вероятностью с точки зрения языковой структуры и наблюдаемой акустической картины. В целом, система работает по принципу «анализ через синтез».
Автоматический анализ текста
Идеальная модель лингвистического процессора состоит из 4 основных модулей-анализаторов: графематического, морфологического, синтаксического и семантического.