Синтез речи.
Преобразование текста в речь.
2 типа синтезаторов: с огр. и неогр. словарем. В устройствах с огр. словарем речь хранится в виде слов и предл., крые выводятся в опред. посл-ти при синтезе реч. сообщения. Реч. ед., исп-мые в синтезаторах подобного типа, произносятся диктором заранее, а затем преобразуются в цифровую форму, что достигается с помощью различных методов кодирования, позволяющих компрессировать реч. информацию и хранить ее в памяти синтезирующего устр-ва.
СР — построение автом. речевого ответа, порождение звуков машиной, связывание звуков с пом. спец. программ в требуемое высказывание.
Разные подходы к СР.1) модель «чкой головы» с артикул. аппаратом.
2) моделирование акуст. сигнала: а) форм. синтез по правилам, б) компилят. синтез (синх. наложение и добавление осн. тона либо синтез на основе линейного предсказания LP).
Форм. синтез по правилам. Исп-ет возбуждающий фильтр, крый проходит ч/з цифровой фильтр, построенный на неск. резонансах.
Компил. синтез. ОЭ-тся путем склейки нужных ед. компиляции из имеющегося инвентаря. Применяется алгоритм обработки сигнала для сглаживания разрывов в форм. стр-ре на границе сегментов.
Неск. методов записи и компоновки речи.
1. Волновой метод кодирования.
Самый легкий путь - просто записать материал на пленку и по необходимости проигрывать. Однако этот путь синтеза не позволяет реализовать построение новой фразы.
2. Параметрическое представление.
С целью уменьшения требуемой памяти для хран. и обесп. необходимой гибкости было ра-тано неск. сп-бов, крые абстрагируются от реч. волны как таковой, а представляют ее в виде набора параметров. Эти параметры отражают наиболее хар-ную инфо либо во временной, либо в частотной области. Например, реч. волна м. б. сформирована сложением отдельных гармоник заданной высоты и заданными спектр. выступами на данной частоте.
3. Синтез по правилам.
В синтезаторах с неогр. словарем эл-тами речи явл-ся фонемы или слоги, поэтому в них применяется метод синтеза по правилам, а не простая компоновка. Данный метод весьма перспективен, т.к. обеспечивает работу с любым необх. словарем, однако качество речи значительно ниже, чем при исп-нии метода компоновки.
При синтезе речи по правилам также используются волновой и параметр. методы кодирования, но уже на уровне слогов.
Метод параметрического представления требует компромисса между кач-вом речи и возм-тью изменять параметры. Исследователи обнаружили, что для синтеза речи выс. кач-ва необходимо иметь несколько разл. произношений ед. синтеза (например, слога), что ведет к увеличению словаря исх. ед. без каких бы то ни было сведений о контекстной ситуации, оправдывающей тот или иной выбор. По этой причине процесс синтеза получает еще более абстр. хар-р и переходит от параметр. представления к ра-тке набора правил, по которым вычисляются необх. параметры на основе вводного фон. описания.Это вводное представление содержит само по себе мало инфо: имена фон. сегментов ( напр, гл. и согл.) со знаками ударения, обозначениями тона и временных хар-к. Таким образом, метод синтеза по правилам использует малоинформ. описание на входе ( менее 100 бит/сек). Этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовеншенны. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности. На уровне предл. и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока.
Стр-ра ССР. 1) определение яз. текста. 2) нормализация текста (удаление нечитаемых символов). 3) 5 ур. лингв. анализа. 4) формирование просодич. хар-к, на основе лингв. анализа (границы синтагм, ритм, акценты, ЧОТ…). 5) фонемный транскриптор. 6) формирование текста (компиляция). 7) выдача звук. сигнала.
Анализ и распознавание звучащей речи
Методы анализа реч сигнала
1. формантный анализ. Задача – опр-е частот формант в процессе их изм-я во времени, опис-е формант стр-ры речи. При произв-ве глух согл голосовые связки почти не принимают участия, шумовой источник нах-ся внутри реч тракта. Звонк согл явл-ся рез-том комбинации для ист-ка монотонных периодич колебаний и акуст шума (самый сложн для опис-я). В программе график – спектрограмма, кот. отраж след св-ва реч сигнала:
- изм-е спектрал стр-ры в координатах частота – время;
- изм-е энергетич насыщенности резонансных частот во времени;
- последоват-ть звуков с гармонической, шумовой и сложной стр-рой тон-шум
- наличие квазистационарных и переходных участков.
По источнику разл-ют 2 осн признака зв-в речи – вокалические В и консонантические К.
В. – особ стр-ра – ряд лежащих друг над другом темных полос, местополож-е кот-х обусловлено артикуляторн хар-кой данного гласного. Кажд полоса соот-вет разл формантн областям гласного снизу F1, F2, F3 диаграммы.
К. – незаметно следов F1, обл-ть спектрал хар-к выше гласных и форманты F3 и > появляются лишь в сегменте аспирации. Изм-е артикул-и при переходах к гласному отраж-ся в изгибах формант.
Реч сигнал – комбинация непрерывн (поперерыв формантн картина) и дискретн (включение / выключ-е голосовых связок, полн/частичн закрытие рта, смыкание мягкого неба) процессов.
Обычно число акуст сегментов превышает число фонет символов транскрипции. 1 взрывной смычный звук (п б м т) м. передаваться след сегментами: переход от предш звука, фаза смычки, фаза эксплодии, фрикация, аспирации, переход к послед звуку.
На спектрограмме реч поток м.б. также разделен на последов-ть сегментов, отраж признаки наличия – отс-я тона, сп-ба и места обр-я звука.
2. просодический анализ / ан-з вторичных акуст сигналов. Анализ-ся ЧОТ, длит-ть и интенсив-ть. Почти все виды интонац инфы м. передать с пом модификации ЧОТ – F0. попериодные изм-я ЧОТ наз-ся тонкой стр-рой осн тона. Она необх-ма при распознав-и индивид особ-тей голоса говорящего, при патологии речи и выр-и эмоций. А при изуч-и инт явл-й эта инфа сглаживается.
Анализ зв сигнала не включает понимание, это делает распознавание, кот. сост-т из след блоков: фонолог, морф, лекс, синт, сем (границы слов)
СРР (с-мы распознавания речи):
- изолированных слов
- для диктовки с исп-ем ограниченного сл-ря
- дикторонезависимые (слит речь) / с настройкой на речь опр диктора
Гл цель – распознавание слит речи. Пр-ма – акуст образы произносимых слов проявляют большую зависиомсть от конт-та (образ – параметры, кот. считываются при анализе), нет пауз, трудно опр-ть границы слов; схожесть слов. Реш-е – ограничить сл-рь используемых слов.
Ч-к для РР исп-ет мн-во факторов, но не сущ-ет такой СРР, кот. учитывала бы все эти параметры:
- хар-ки звуков речи
- произносит вариативность
- ударение
- интонац контур речи
- звук образы слов
- грам стр-ра яз
- зн-я слов и пр-й
- конт-т общения
Основа СРР – акустико-фонетический процессор. Его цель – дать дискретное описание реч волны + привести в соотв-е реч выск-ние с его акуст-фон признаками (ЧОТ, интенсивность, длительность) без идентификации слов и их границ.
=> грам анализатор (п/е получения дискретн отображ-я). Его задачи – 1) построение, проверка и распр-е составляющих конструкций в процессе постеп интерпретации входн выск-ния; 2) предсказание / подтверждение мн-ва созм слов для кажд опр участка фон формы (поступление дальнейш инфы)
Эти процессы координируются в процессе уяснения синт и сем комп-ми. Обмен инфой продолж-ся до полн понимания.
При анализе реч волны (АРВ) происх обнаружение начала и конца фраз / пр-й (это м. опр-ся ч/з смену «сигнал-шум» больш-во децибел – оконч-е фразы), АРВ с опорой на слог (вычленение слогов, м.б. выделены псевдослоги – ЧОТ, интенсивность, длит-ть). Рез-т служит для работы алгоритма восстановления, кот. позволяет уточнить / адекватно идентифицировать те стр-ры, в отн-и кот-х не б. сделан окончат вывод при акуст анализе.
Методы распознавания акуст сигнала
1. основан на акустико-фон инфе сегментного ур-ня (с пом интонографа и спектрографа)
I этап – анализ явл-й коартикуляции (с взаимн влиянием конт-та) на базе лингв закономерностей встречаемостей сочетаемости зв-в и взаимовлияний зв-в (аллофония)
II этап – анализ дифонов (от сер 1-го зв до сер 2-го) конт-но инвариантен и экономичен, осн-н на сопоставл-и со сл-рем эталонов дифонов, но исп-ся для РР, зависимой от диктора. В сл-ре содерж-ся стационарн эл-ты, коротк эл-ты (переходы м/у сосед фонемами СГ-ГС-СС-ГГ), длительн переходы эл-в м/у 3 фонемами (трифонами).
2. с основой на визуал инфу (осущ-ся с помощью параметрографа)
Анализ-ся след зн-я:
- частотная составдяющая в 13 частотных диапазонах
- амплитуда тона (Г)
- амплитуда шума (С)
- наличие ударного звука
- наличие вибрирующего звука (+/-)
3. Маркоффские цепи
Комп-ты:
- выделение и анализ разл признаков, кот. обр-ют опр состояния, кажд из кот-х соотв-ет реализации конкр фонемы
- акуст-фон декодирование, где осущ-ся фонет транскрипция отрезка речи
- лекс анализ – сличение слова со сл-рем, не противоречащ полученной фон инфе
- синт анализ – отбир-ся тот вар-т, кот. наилучш образом соотв-ет рез-там грам анализа