Фонетические лингвистические ресурсы

Как видно из общей структуры лингвистических ресурсов, их составной частью являются также фонетические лингвистические ресурсы. При их создании возникают те же проблемы, что и при создании письменных текстовых массивов.

Однако главная трудность создания фонетических лингвистических ресурсов связана с необходимостью транскрибирования устной речи. При этом возникают следующие проблемы:

1. Какой алгоритм использовать для транскрибирования?

2. Учитывать ли индивидуальные особенности произношения?

3. Учитывать ли весь устный текст или его фрагменты?

4. Учитывать ли диалектные варианты произношения слов?

5. Учитывать ли ударения в словах?

6. Учитывать ли просодические признаки произносимых фраз?

7. Отмечать ли слова, которые при прослушивании не распознавались?

8. Отмечать ли в записи для фонетического корпуса паралингвистические явления, сопутствующие речи (паузы, смех, бормотание, кашель и т.п.)?

В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуков речи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения.

Несмотря на трудности создания, в мире уже существует много достаточно представительных фонетических корпусов. Так, в 70-х годах XX века в США X. Далем и его коллегами был создан «Корпус устной речи американского варианта английского языка». Он включал 1000000 словоупотреблений, взятых из записей психоаналитических сеансов. С каждойшз 15 кассет, имевшихся в распоряжении составителей корпуса, было случайным образом отобрано 225 записей сеансов. Они содержали речь 8 женщин и 21 мужчины из 9 городов США. Отобранные записи были транскрибированы на основе стандартной английской орфографии. Диалектные варианты произношения не учитывались. Нераспознанные слова при записи обозначались буквой Z Ударения и другие просодические характеристики речи также не учитывались. В то же время при орфографической записи устной речи в качестве специальных комментариев отмечались паузы, смех, вздох, кашель и другие паралингвистические явления.

Известен Международный машиночитаемый архив современного английского языка (The International Computer Archive of Modern English — ICAME).

В последние годы предлагается коммерческий «Корпус разговорного профессионального американского варианта английского языка» (Corpus of Spoken Professional Ащейсап English). Он включает 2000000 слов с индексами части речи при каждом слове (его можно найти по URL-адресам www.athelstan.com и www.athel.com).

Существует несколько фонетических корпусов немецкой устной речи. Одним из первых является Фрейбургский корпус. Он создан на базе 820 магнитофонных записей устной немецкой речи конца 60-х — начала 70-х годов XX века во Фрейбургском отделении Института немецкого языка. Корпус включает записи радиопередач, а также различных конференций, заседаний и других общественных мероприятий. Для транскрибирования было отобрано 222 текста различного объема (от 175 до 16390 словоупотреблений) общей длиной в 600000 словоупотреблений. Для приведения записей в машиночитаемый вид была разработана специальная система транскрипции, опирающаяся на стандартную немецкую орфографию.

Фонетические корпусы текстов широко используются для решения следующих задач:

1) сопоставительного изучения устной и письменной форм языка;

2) изучения грамматических и лексических особенностей устной речи;

3) исследования фонетических особенностей диалектов;

4) построения частотных списков фонем и их сочетаний;

5) изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

6) создания компьютерных систем, распознавания и синтеза устной речи.