12.Лингвистический этап синтеза в системах Текст-Речь.

Главная задача этапа лингвистической обработки текста состоит в том, чтобы по письменному тексту построить его транскрипционную запись, которая должна содержать как сегментную, так и супрасегментную (просодическую) информацию, необходимую для акустического синтеза.

Задачи, которые должны быть решены на этапе лингвистической обработки:

1 - Для систем многоязычного синтеза, которые умеют озвучивать тексты на разных языках, необходимо сначала определить язык входного текста. 2- Далее желательно освободиться от орфографических и пунктуационных ошибок, так как они приводят к неправильному прочтению Для этого во многих системах используются специальные устройства (спел-чекеры).

Чтобы перейти к построению фонетической транскрипции, необходимо представить входной текст в виде последовательности обычных орфографических слов, разделенных пробелами и пунктуационными знаками. В обычном тексте, кроме нормальных орфографических слов, могут быть цифры, сокращения (г-н, г., т. д., т. е.), аббревиатуры (МГУ), которые нужно уметь опознавать и, если требуется, превращать в обычные орфографические слова, причем в нужной грамматической форме. Операции, которые необходимы для преобразования входного текста в последовательность нормальных орфографических слов, относятся к этапу нормализации текста (3). Однако и после этого текст может быть не готов для перехода к построению фонетической транскрипции. В русских текстах, например, слова не имеют помет о месте ударения, без знания которого построить транскрипцию невозможно. Кроме того, вместо буквы "ё", как правило, пишется буква "е" (ср. написание таких слов, как пес, тетя и т. п.).

Большинство из перечисленных выше задач не могут быть решены без обращения к словарю и морфологическому анализу текстовых словоформ (4). Но для постановки ударения в словах типа замок — замок и этого недостаточно, здесь нужен более сложный анализ текста. Особую проблему для этапа нормализации составляют собственные имена.

Важнейшей задачей лингвистической обработки текста является формирование фразовых интонационно-просодических показателей (типов интонации, особых интонационных подчеркиваний слов и т. п.), которые приписываются отдельным предложениям и более мелким интонационно-смысловым группам. Эта задача выполняется с помощью акцентно-интонационного транскриптора (5). Правильное задание просодических характеристик оказывает большое влияние на осмысленность и естественность синтезированной речи. Большинство современных систем автоматического синтеза пока ограничивается имитацией речи с эмоционально нейтральной интонацией. Воспроизвести эмоциональную окраску речи гораздо труднее, поскольку информацию об эмоциях извлечь из письменного текста трудно, а часто и невозможно.

Кроме того, определить признаки даже нейтральной интонации для каждого предложения в тексте сложно. Важнейшими текстовыми ключами для этого являются пунктуационные знаки. В то же время хорошо известно, что связь между интонацией и пунктуацией далеко не однозначна. Во многих случаях для выбора правильного интонационного оформления предложения нужен глубокий семантико-синтаксический анализ (4), который современными автоматическими средствами удается произвести лишь частично.

Сегментную фонетическую транскрипцию текста, построением которой завершается работа лингвистического блока, осуществляет фонемный транскриптор (6). Для этого применяются прежде всего стандартные правила чтения, действующие в языке, т. е. соответствия типа "буква → фонема → звук". Степень фонетической детализации (количество различаемых звуков), которая выбирается в конкретных системах синтеза при построении транскрипции, может быть разной. Часто выбор диктуется традицией, которой следуют фонетические описания синтезируемого языка и наиболее представительные и общеупотребительные словари.

В ряде языков (английском, русском) соотношение между орфографией и произношением является достаточно сложным — многие слова не подчиняются стандартным правилам чтения. Слова, произношение которых "выпадает" из стандартных правил, приходится обрабатывать отдельно, либо создавая для них более узкие, специфические правила (ср. например, особенности произношения в русском языке таких иностранных слов, как модель, пюре, энергия, где согласный перед е произносится твердо в отличие от таких слов, как дело, речка, небо), либо записывая фонетическую транскрипцию слова прямо в его словарную характеристику, т. е. запоминая её, а не выводя из правил чтения.

После того, как построена полная фонетическая транскрипция предложения, т. е. с заданной степенью детализации определен его звуковой состав и интонационное оформление, должна быть осуществлена просодическая параметризация звуковых сегментов. То есть, для каждой фонемы (или аллофона), входящей в синтезируемую фразу, нужно определить физическую длительность, интенсивность (среднюю или с учетом динамики изменения) и частоту основного тона (среднюю или с учетом динамики изменения). Просодическая параметризация необходима для любой системы синтеза, независимо от применяемых в ней методов формирования акустического сигнала. Она осуществляется с помощью специальных правил (7). В некоторых системах блок просодической параметризации выделяется в самостоятельный компонент, который занимает промежуточное положение между лингвистической обработкой текста и формированием акустического сигнала.

И наконец, когда полностью выполнены все описанные выше операции, можно считать, что "говорящая" машина знает, что она должна сказать, но еще не знает, как это сделать. Окончательный результат в виде синтезированного речевого сигнала получается на этапе акустического синтеза речи.