пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

16. Приложение СВМЯ

Основные области приложения структурно-вероятностной модели языка

Лингвистический мониторинг функционирования языка. Задача лингви­стического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (на­учном, политическом дискурсе, текстах СМИ и т.д.). В качестве предмета лингвистического мониторинга могут высту­пать такие феномены естественного языка, как: типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые метафоры, темати­ческое распределение лексики (например, лексика временных и про­странственных отношений, лексика выражения чувств и эмоций и т.д.), особенности использования в текстах тех или иных грамматических форм и синтаксических конструкций и т.д. Технология лингвистического мониторинга основывается на двух важнейших пред­посылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, т.е. на репрезентативности выборки данных. В силу этого лингви­стический мониторинг практически невозможен без использования компьютерной техники. Её использование позволяет давать оценку исследуемому феномену, выявить его распреде­ление по времени, по источникам, авторам и т.д.

Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в част­ности, методика контент-анализа (предмет следующей лекции).

Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компью­терные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии, как правило,  содержат словари только наиболее частотных лексем. Редкие слова пользова­тель может добавлять с словарь вручную. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Также, абсолютная частота появления лексем (в особенности терминологической лексики) используется в системах автома­тического аннотирования и реферирования текста. Так, согласно статистико-дистрибутивному методу автоматического индексирования информатив­ными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некото­рую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).

Ещё одной областью приложения С-В модели языка является дешифровка кодированного текста. В процессе дешифровки используются данные о частоте употребления графем, мор­фем и слов, а также об их взаимном расположении. К настоящему вре­мени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста, например: дешифровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д. Андреева. Близки к задачам дешифровки формальные процеду­ры исследования морфемного состава неописанного языка, предложенные 3. Харрисом.

Авторизация/атрибуция текста. Проблема авторизации текста отно­сится к числу классических проблем филологического исследования. Типологически можно представить следующие базовые ситуации экспертного анализа.

A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.

Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).

B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т1,Т2,... ,Тn

Авторизация включает как литературную, так и лингви­стическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстети­ческие; г) субъективно-психологические; д) субъективно-идеологические факторы. К объективным факторам относятся: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства совре­менников); в) историко-идеологические и сопоставительно-идеологи­ческие; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические.

Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные кри­терии анализа и атрибуции текста. А большинство факторов, которые выделяет Виноградов, плохо формализуемы и разные эксперты, анализируя одни и те же факторы, могут делать совершенно различные выводы.

Перспектива объективизации и формализации этой процедуры была обнаруже­на в использовании количественных (статистических) методов анализа текста. Пионером в этой области стал Н. А. Морозов, со своей работой 1915 г. «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематичес­ки связанную лексику, т.е. слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, а на служеб­ные и тематически нейтральные слова. Оказалось, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.

В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основа­ния авторизации могут быть различны, но использование количествен­ных методов анализа оказывается неизбежным в любом случае. Одно из перспективных направлений в этой области — привлечение к авторизации текста тео­рии распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров, к которым, например, относятся: средняя длина предложения, количество вложенных синтаксических структур, количе­ство слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты ко­торого задаются значениями выбранных параметров. Сходство векторов определяет сходство стилей.

 

Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотноше­ние чужой речи (прямой, смешанной, вложенной) и речи авторской также оказывается стилеобразующим фактором. Эта характеристика стиля от­ражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE.


10.06.2014; 21:08
хиты: 319
рейтинг:0
Гуманитарные науки
лингвистика и языки
математическая лингвистика
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь