23.Автоматический синтез речи. Немного об истории говорящих машин

Идея создания "говорящей" машины привлекала людей на протяжении длительного времени. В XVIII в. появились первые механические синтезаторы речи, в которых была сделана попытка воспроизвести основные процессы, происходящие при образовании речевых звуков. Один их таких синтезаторов в конце XVIII в. сконструировал ученый из Санкт-Петербургского университета В. Кранценштейн, получив за это специальную премию Российской академии наук. Машина "произносила" пять гласных, и в ее устройстве использовались акустические резонаторы с различными собственными частотами. Струя воздуха создавалась с помощью мехов и дробилась на воздушные импульсы при помощи вибрирующих язычков, возбуждаемых воздушной струей. Так имитировалась работа голосового источника. Наиболее известным механическим синтезатором была "говорящая" машина, созданная также в конце XVIII в. В. фон Кемпеленом, который работал над ней около 20 лет. Она тоже представляла собой механический аналог речевого тракта человека и состояла из воздухо-надувных мехов, вибрирующих язычков и резиновой камеры, с помощью которых воспроизводились функции легких, и ротовой полости (рис. В машине были также маленькие трубки, имитирующие носовые проходы, и ручки для управления свистками, которые использовались для производства шумных согласных. С помощью такой машины можно было произвести около 20 речеподобных звуков. Машина Кемпелена управлялась человеком-оператором, действия которого напоминали игру органиста самого высокого уровня.

В 20-30 годы XX в. произошел переход от механических синтезаторов речи к электрическим. Одним из первых синтезаторов такого типа был вокодер американского инженера-связиста Гомера Дадли. Вокодером называется устройство, которое сначала осуществляет спектрально-временной анализ речевого сигнала, выделяя его акустические параметры, а затем может восстановить (ресинтези-ровать) исходный речевой сигнал на основании выделенных параметров. В вокодере Дадли спектральный анализ производился с помощью набора из 10 полосовых фильтров, а при восстановлении сигнала использовались такие параметры, как средняя энергия в частотных полосах, частота основного тона и присутствие шума. Вокодер Дадли мог работать и как автономный синтезатор. В этом случае им управлял оператор, который, пользуясь клавиатурой и педалями, синтезировал речь с помощью электрических устройств (фильтров, генератора шума и генератора периодических импульсов). В отличие от предшествующих синтезаторов, вокодер Дадли был основан не на имитации артикуляции, а на воспроизведении акустических параметров речевого сигнала. На основе вокодерного принципа были впоследствии строены первые форматные синтезаторы. В них с помощью первичного спектрального анализа выделялись форманты, которые затем использовались при ресинтезе гласных или слогов. Разработка вокодеров была тесно связана с задачей сжатия информации, которую необходимо передавать по каналам связи, причем без значительного искажения. Эта задача до сих пор является актуальной, так как частотные каналы систем связи имеют определенные ограничения на объем передаваемой информации, и, кроме того, стоимость передачи информации зависит от ее количества.

Все синтезаторы этого поколения были аналоговыми устройствами. Синтез речевого сигнала без участия человека-оператора заключался в следующем: на магнитных носителях хранились предварительно записанные аналоговые сигналы, соответствующие отдельным звукам или слогам, из которых путем простого соединения (склеивания) и ресин-теза получались нужные речевые отрезки. Синтезированная речь, порожденная таким способом, звучала неестественно, с сильным нарушением просодической организации. Для повышения естественности синтеза в качестве акустических образцов использовались также отдельно произнесенные слова, которые склеивались в нужной последовательности и затем воспроизводились. Правда, это ненамного улучшало качество синтезированной речи. Кроме того, количество разных речевых сообщений было резко ограничено объемами памяти устройства, в котором нужно было хранить базовые акустические образцы слов. В настоящее время с помощью персонального компьютера со звуковой картой и редактора звуковых сигналов можно без особого труда осуществить подобный синтез и составить представление о качестве речи, синтезированной таким способом.

Появление вычислительных машин в середине 50-х годов существенно повлияло на технику и технологию автоматического синтеза речи. Появилась возможность работать с цифровым представлением речевого сигнала и применять к нему численные методы анализа и различные преобразования оцифрованных акустических образцов, хранящихся в памяти компьютера. Кроме того, с развитием компьютерной техники с каждым годом становились все менее жесткими ограничения на объем памяти для хранения акустических образцов, из которых строится синтезированная речь.

В начале 60-х годов, когда были сформулированы основные положения акустической теории речеобразования, в области автоматического синтеза речи образовались два относительно независимых направления: артикуляционный и акустический (сигнальный) синтез.

Артикуляционный синтез продолжает на современном уровне направление, начало которого было положено первыми механическими синтезаторами. В работах представителей этого направления делается попытка синтезировать речевой сигнал на основе моделирования процесса речеобразования с учетом сведений об артикуляции. Такие сведения используются для количественной оценки формы речевого тракта, его резонансных свойств и характеристик звуковых источников. Затем на основе расчетных данных генерируется речевой сигнал (в цифровой форме). Для этого применяются методы, которые разрабатываются в рамках акустического направления [Лобанов, Панченко 1980].

Акустический синтез является продолжением того направления, которое было начато созданием вокодеров и электрических синтезаторов разного типа. В отличие от работ по артикуляционному синтезу в исследованиях этого направления не ставится задача непосредственного отражения в синтезе тех процессов, которые связывают артикуляцию с акустикой речевого сигнала. Вместо этого требуется просто выявить и воспроизвести в синтезируемом сигнале акустические характеристики естественной речи, которые существенны для восприятия. Акустические синтезаторы по своим конечным результатам (качество синтезированной речи и быстрота действия) значительно опередили системы артикуляционного синтеза, и поэтому автоматический синтез речи развивается главным образом в этом направлении.

Современное состояние автоматического синтеза речи

В середине 60-х годов разработках автоматического синтеза речи произошел важный сдвиг: вместо ресинтеза, или восстановления, ограниченного количества речевых образцов, хранящихся в компьютере в цифровой была поставлена задача озвучивания любого сообщения, вводимого в компьютер в текстовом виде и неизвестного заранее системе звукового синтеза. Это привело к развитию синтезаторов типа Текст-Речь (Text-to-Speech, TTS). В идеале такие устройства должны имитировать деятельность человека, который читает письменное сообщение или текст любой степени сложности. Озвучивание произвольного текста требует решения ряда задач, связанных с его предварительной лингвистической обработкой. Поэтому в системах автоматического синтеза речи появился этап лингвистический обработки синтезируемых сообщений.

Современные синтезаторы речи типа включают два блока: блок лингвистической обработки (Natural Language Processing), с помощью которого для любого произвольного сообщения или текста строится его полная фонетическая транскрипция, включающая как сегментную, так и просодическую характеристики; и блок акустического синтеза или цифровой обработки сигнала (Digital Signal Processing), генерирующего речевой сигнал, т. е. "озвучивающего" фонетическую транскрипцию.

Различные типы синтезаторов выделяются прежде всего на основе тех методов, которые используются на последнем этапе синтеза. В современных синтезаторах акустический синтез осуществляется либо в виде формантного синтеза по правилам, либо в виде конкатенативного синтеза с элементами правил (о различиях – ниже).

В настоящее время технологии автоматического синтеза речи достигли достаточно высокого уровня. Имеются учебники, посвященные изложению основ этой важной области человеческого знания [Dutoit 1997]. Исследователи ставят перед собой задачу получить высококачественную синтезированную речь, близкую к естественному чтению текста человеком. Однако многие проблемы, в особенности связанные с лингвистической обработкой текста, все еще остаются нерешенными. Дополнительные исследования требуются также для придания компьютерному голосу живого, человеческого звучания, наделенного широким диапазоном различных эмоциональных оттенков.

23.Автоматический синтез речи. Немного об истории "говорящих" машин