Акустический синтез по правилам

По историческим и практическим причинам синтезаторы данного типа реализуются обычно в виде формантных синтезаторов, т. е. базируются на классической акустической модели речеобразования «источник-фильтр». Практика разработок в этой области показывает, что для получения достаточно естественной речи требуется около 60 параметров, характеризующих передаточную функцию речевого тракта, т. е. задающих частоту, амплитуду, а также ширину формант и антиформант речевых звуков (форма́нта — термин из фонетики, обозначающий акустическую характеристику гласных звуков, связанную с уровнем частоты голосового тона и образующую тембр звука; антиформанта – такая область спектра, в которой энергия существенно ослаблена (по сравнению с другими областями). Кроме того, необходимы отдельные правила для параметров, которые описывают динамически меняющиеся характеристики голосового и шумовых источников звука. На основе акустических параметров, задаваемых правилами, в формантных синтезаторах формируются сигналы акустического возбуждения (шумовые и периодические). Сигналы источников звука преобразуются с помощью цифровых фильтров, которые настраиваются в соответствии с параметрами передаточной функции (формантами и антиформантами). В результате получается цифровая версия звуковой волны, которая далее озвучивается.

Создание формантного синтезатора по правилам требует большой подготовительной работы, связанной с акустическим анализом значительных речевых массивов и формулировкой нужных правил. Эта работа усложняется также тем, что необходимые акустические данные не всегда удается извлечь из естественной речи с помощью автоматических методов спектрального анализа. Речь, получаемая с помощью современных формантных синтезаторов, часто сопровождается гудением или жужжанием, что снижает ее естественность. В то же время формантный синтез по правилам дает возможность имитировать разные голоса, отслеживать изменения в стиле произношения и тембре голоса, гибко учитывать корреляцию между разными акустическими параметрами. Формантный синтез описанного типа используется в целом ряде TTS-систем, из которых наиболее известны MITALK и DECTALK для английского языка и многоязычная система синтеза речи INFOVOX.

Акустический синтез на основе конкатенации.

В синтезаторах этого направления грубая первичная основа акустического сигнала создается на основе конкатенации (склейки) акустических образцов, которые хранятся в памяти компьютера в виде особой акустической базы данных. Акустические образцы берутся из речи определенного диктора-«донора» и запоминаются либо в виде оцифрованных фрагментов звуковой волны, либо в параметризованной форме, полученной в результате акустического анализа исходных "живых" образцов. В простейшем случае первичная основа результирующего сигнала получается с помощью склеивания исходных акустических образцов, здесь не требуется даже параметрического синтеза. Далее эта акустическая основа подвергается модификации по правилам, функция которых состоит в том, чтобы придать склеенным фрагментам акустического сигнала нужные просодические характеристики (частоту основного тона, длительность и энергию). При разработке синтезатора на основе конкатенативного подхода приходится решать два вопроса: 1) какие акустические образцы следует выбирать для "склеивания"; 2) как производить необходимую просодическую модификацию и склейку с наименьшими потерями для естественности синтезированной речи.

В имеющихся синтезаторах используются разные типы акустических образцов: дифоны (отрезки, которые начинаются в середине одного звука и заканчиваются в середине соседнего), полуслоги, слоги, фрагменты фонемной размерности (акустические аллофоны) и образцы смешанных типов. Во всех случаях решающим является требование сохранить без изменения переходные участки, на которых происходит акустическое взаимодействие звуков.

Размер акустической базы конкатенативного синтезатора может быть очень большим, и когда-то это обстоятельство считалось серьезным недостатком подобных систем. Сейчас это уже почти несущественно, так как возможности компьютерной техники в области долговременного хранения информации постоянно растут. Что касается второго вопроса, то в последнее время успешно разрабатываются такие методы просодической модификации образцов и формирования акустического сигнала, которые позволяют получить синтезированную речь высокого качества при относительно небольших вычислительных затратах. При наличии вспомогательных технологий, связанных с построением акустической базы синтеза, высококачественный синтезатор конкатенативного типа может быть построен достаточно быстро. Этим определяется широкая популярность данного направления среди разработчиков, особенно в Западной где почти все коммерческие синтезаторы построены на основе метода конкатенации. Но и у них есть свои ограничения. Например, в таких синтезаторах трудно изменить тембр голоса: для этого надо создавать новую базу акустических образцов (элементов компиляции) на речевом материале другого диктора-"донора", либо обрабатывать каждый образец из уже имеющейся базы.