пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

16 СВМЯ и Авторизация

Ещё одной областью приложения С-В модели языка является дешифровка кодированного текста. В процессе дешифровки используются данные о частоте употребления графем, мор­фем и слов, а также об их взаимном расположении. К настоящему вре­мени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста, например: дешифровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д. Андреева. Близки к задачам дешифровки формальные процеду­ры исследования морфемного состава неописанного языка, предложенные 3. Харрисом.

Авторизация/атрибуция текста. Проблема авторизации текста отно­сится к числу классических проблем филологического исследования. Типологически можно представить следующие базовые ситуации экспертного анализа.

A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.

Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).

B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т1,Т2,... ,Тn

Авторизация включает как литературную, так и лингви­стическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстети­ческие; г) субъективно-психологические; д) субъективно-идеологические факторы. К объективным факторам относятся: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства совре­менников); в) историко-идеологические и сопоставительно-идеологи­ческие; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические.

Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные кри­терии анализа и атрибуции текста. А большинство факторов, которые выделяет Виноградов, плохо формализуемы и разные эксперты, анализируя одни и те же факторы, могут делать совершенно различные выводы.

Перспектива объективизации и формализации этой процедуры была обнаруже­на в использовании количественных (статистических) методов анализа текста. Пионером в этой области стал Н. А. Морозов, со своей работой 1915 г. «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематичес­ки связанную лексику, т.е. слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, а на служеб­ные и тематически нейтральные слова. Оказалось, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.

В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основа­ния авторизации могут быть различны, но использование количествен­ных методов анализа оказывается неизбежным в любом случае. Одно из перспективных направлений в этой области — привлечение к авторизации текста тео­рии распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров, к которым, например, относятся: средняя длина предложения, количество вложенных синтаксических структур, количе­ство слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты ко­торого задаются значениями выбранных параметров. Сходство векторов определяет сходство стилей.

Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотноше­ние чужой речи (прямой, смешанной, вложенной) и речи авторской также оказывается стилеобразующим фактором. Эта характеристика стиля от­ражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE.

 

 

При дешифровке исторических систем письма неизвестен язык, на котором написан текст, но сам текст не подвергался специальной обработке, имеющей целью затруднить чтение текста; текст записан в соответствии с нормами орфографии данного языка. В конце 50-х годов специалисты в области дешифровки исторических систем письма стали придавать большое значение машинной обработке изучаемых текстов - "машинная дешифровка". Использование вычислительной техники при дешифровке позволяет осуществить очень громоздкую обработку: Разбивка нерасчлененного текста на блоки, составление прямых и обратных словарей, выявление формальной грамматики. Неизвестный текст вводится в вычислительную машину в цифровой транскрипции, которая составляется вручную.

Основным методом изучения неизвестных текстов считают позиционную статистику. Обычно при дешифровке широко используются такие простые статистические методы, как составление частот знаков алфавита, частотные словари и т. п., т. е. такие приемы, которые дают частотные характеристики знаков, морфем, словоформ в тексте, не связывая частотные характеристики со структурой текста. Подпозиционной статистикой текста понимают частотные характеристики, которые связывают единицы текста с некоторой структурой текста, с положением, занимаемым этими единицами в тексте. Такого рода частотные характеристики позволяют выяснить закономерности, имеющиеся между различными элементами текста. Например, на основе частот знаков текста в зависимости от положения можно выявить характерные позиции знака внутри слова (инициальная, медиальная, финальная) и наметить подходы для выявления морфологии. Можно аналогичным образом исследовать сочетаемость морфем между собой, выявить закономерности сочетания слов внутри предложения. Это возможно потому, что текст рассматривается как структура связей, действующих для близких элементов. Для текстов малых объемов позиционная статистика становится единственным способом получения надежной информации о структуре текста.

Согласно методике дешифровки, предложенной Ю.В. Кнорозовым, предполагается, что неизвестный текст записан на некотором, пока для нас неизвестном, но естественном языке, не подвергался специальным преобразованиям типа зашифровки с целью затруднить чтение этого текста. Предполагается, что в тексте существует определенная структура связей, причем для большинства случаев связи в тексте проявляются на небольшом расстоянии и близкие по тексту элементы находятся в некотором соотношении. Поэтому основной метод - позиционная статистика.

Описание этапов:
Разбиение непрерывного текста (написанного без пробелов) на отдельные блоки, соответствующие в основном словоформа на основе выделения в тексте устойчивые знакосочетаний. Если знаешь направление письма, а его часто подсказывает ориентация знаков, и видишь, что он разделен на блоки, можно ввести своего рода систему координат. Это значит, что позицию каждого блока можно определить по отношению к началу текста, а позицию отдельного знака в блоке - по отношению к началу и концу данного блока.

Следующая задача - анализ морфологии слова. В эту задачу входят разбиение каждого блока на отдельные части и классификация их с целью выделения постоянных и переменных частей, соответствующих корневым и служебным морфемам. Важной и необходимой задачей, сходной с предыдущей, является выяснение структуры предложения. На основе полученных данных можно ставить задачу о выявлении классов блоков как по морфологической, так и по синтаксической структуре. Затем, используя и факты сравнительного языкознания, и дополнительные внетекстовые данные (археологических, исторических, филологических и иных сведений), нужно конкретизировать грамматику неизвестного языка и только затем переходить к изучению смысла текста.

При исследовании как структуры словоформы, применяется прием "окружения": для каждого элемента текста указываются группы из n элементов текста, которые "окружают" в тексте слева и справа исследуемый элемент. Такие окружения позволяют выявить связи между исследуемым элементом и другими "близкими к нему" частями текста.

Комбинаторный метод вкл. как дешифровку изнутри (анализ комбинаций яз. эл-в), так и дешифровку 

«извне» (привлечение данных разного хар-ра: место находки надписи, предмет, на кот. она нанесена, сопровождающие изображения, сведения о народе и их соседях)

Атрибуция, то же, что авторизация – установление принадлежности анонимного произведения или в случае мистификации. В широком смысле А. – соотнесение тексту соотв. атрибутов, к кот. причисляются имя создателя, жанр, время и место создания. Текст, авторство кот. подлежит определению наз. анонимным. Если автор ставит свое имя под чужим произведением, говорят о плагиате. Иногда автор выпускает произ-ние под псевдонимом.

 


10.06.2014; 23:13
хиты: 321
рейтинг:0
Гуманитарные науки
лингвистика и языки
математическая лингвистика
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь