Основные области приложения структурно-вероятностной модели языка
Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах СМИ и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как: типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые метафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, лексика выражения чувств и эмоций и т.д.), особенности использования в текстах тех или иных грамматических форм и синтаксических конструкций и т.д. Технология лингвистического мониторинга основывается на двух важнейших предпосылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, т.е. на репрезентативности выборки данных. В силу этого лингвистический мониторинг практически невозможен без использования компьютерной техники. Её использование позволяет давать оценку исследуемому феномену, выявить его распределение по времени, по источникам, авторам и т.д.
Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в частности, методика контент-анализа (предмет следующей лекции).
Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии, как правило, содержат словари только наиболее частотных лексем. Редкие слова пользователь может добавлять с словарь вручную. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Также, абсолютная частота появления лексем (в особенности терминологической лексики) используется в системах автоматического аннотирования и реферирования текста. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).
Ещё одной областью приложения С-В модели языка является дешифровка кодированного текста. В процессе дешифровки используются данные о частоте употребления графем, морфем и слов, а также об их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста, например: дешифровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д. Андреева. Близки к задачам дешифровки формальные процедуры исследования морфемного состава неописанного языка, предложенные 3. Харрисом.
Авторизация/атрибуция текста. Проблема авторизации текста относится к числу классических проблем филологического исследования. Типологически можно представить следующие базовые ситуации экспертного анализа.
A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.
Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).
B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т1,Т2,... ,Тn
Авторизация включает как литературную, так и лингвистическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстетические; г) субъективно-психологические; д) субъективно-идеологические факторы. К объективным факторам относятся: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства современников); в) историко-идеологические и сопоставительно-идеологические; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические.
Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста. А большинство факторов, которые выделяет Виноградов, плохо формализуемы и разные эксперты, анализируя одни и те же факторы, могут делать совершенно различные выводы.
Перспектива объективизации и формализации этой процедуры была обнаружена в использовании количественных (статистических) методов анализа текста. Пионером в этой области стал Н. А. Морозов, со своей работой 1915 г. «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику, т.е. слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, а на служебные и тематически нейтральные слова. Оказалось, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.
В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным в любом случае. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров, к которым, например, относятся: средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет сходство стилей.
Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) и речи авторской также оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE.