Применение приемов статистического метода

Количественные методы в языкознании — использование подсчётов и измерений при изучении языка и речи. В той мере, в какой Колич.методы опираются на математическую статистику, они могут быть названы статистическими методами. Как и все математические методы, К. м. могут применяться к объектам самой разной природы, поэтому в языкознании они используются для анализа единиц любого уровня. Во многих сферах языкознания применение К. м. ничем не отличается от применения их в других науках. Например, экспериментальная (инструментальная) фонетика использует тот же математический аппарат, что и физика. Применение выборочных методов статистики в языкознании аналогично их применению в других естественных и социальных науках. В психолингвистике и социолингвистике, где обрабатываются мнения информантов, применяются те же методы конструирования шкал, что и в психологии и социологии.

Вместе с тем в языкознании возникают специфические аспекты применения К. м., связанные с противопоставлением языка и речи. Непосредственно к системе языка К. м. применяются крайне редко и ограничиваются главным образом лексикой (количественное изучение этимологического состава словаря, процессов словообразования, распространённости разных типов полисемии). К. м. используются также в сравнительно-историческом языкознании.

Основным объектом применения К. м. обычно является речь, точнее, текст. Количественные показатели дают определённую информацию о самих текстах. На том факте, что различия между языковыми стилями и жанрами носят преимущественно статистический характер, основана так называемая статистическая стилистика. Возможность через лексику количественно отражать тематическую отнесённость текстов языка важна для некоторых приложений лингвистики (например, в информатике). Широкое применение К. м. для описания и классификации текстов (например, при атрибуции текстов, в частности при установлении авторства анонимных или псевдонимных текстов) связано с тем, что большинство двусторонних единиц и конструкций языка могут служить основой для различения текстов или для их квалификации.

С другой стороны, К. м., примененные к текстам, открывают путь к изучению самого языка, поскольку сегменты текстов, являющиеся объектами подсчётов, соотнесены с единицами языка. К. м. позволяют количественно описывать поведение различных языковых единиц (фонем, букв, морфем, слов) в тексте: частоту употребления единиц, их распределение в текстах разного жанра, сочетаемость с другими единицами и т. п. Одновременно накапливается обобщённая количеств, информация о классах единиц, о языковых конструкциях (например, данные о средней длине слова или предложения, о частоте употребления каких-либо грамматических форм в тех или иных синтаксических функциях и т. п.). Такая информация углубляет описание единиц языка. Например, простая констатация наличия форм именительного падежа единственного числа личных местоимений в английском, русском и латинском языках недостаточна для выявления типологических различий, если не учитывать количественные различия в текстовом поведении соответствующих единиц: почти абсолютная необходимость местоимения при глаголе в английском языке, его обычность — в русском языке и редкость и стилистическая маркированность — в латинском языке. Таким образом, создаётся перспектива превращения обычной структурной модели языка в структурно-вероятностную модель, в которой учитываются результаты статистического анализа текстов (в этой модели единицы языка обладают «весом», измеряемыми оказываются языковые противопоставления и связи).

Соединение статистических методов с идеями дистрибутивного анализа легло в основу дистрибутивно-статистического анализа, описывающего структуру языка и структуру текста на основе очень ограниченной исходной информации (например, принимая за данное письменный текст без каких-либо сведений о его семантике). В этом случае единицы языка и их отношения выделяются в процессе этого анализа, а не используются как готовый материал.

Колич.методы языкознании предполагают исследование обширных массивов текстов, поэтому для их применения большое значение приобретают средства доступа к текстовым данным, допускающие многократное к ним обращение. К таким средствам относятся базы данных, хранимые в ЭВМ, издания, подготовленные с помощью ЭВМ (частотные словари, конкордансы — словари, фиксирующие все контексты употребления слова, и т. п.).

Одним из наиболее мощных инструментов анализа естественных языков, в основе которого лежат методы математической статистики, является составление частотных словарей. Частотный словарь – разновидность словаря (как правило, одноязычного), в котором лексические единицы характеризуются с точки зрения частоты их употребления в коллекции (совокупности) текстов, которые могут представлять или язык в целом, или определенный функциональный стиль речи, или творчество определенного автора. В зависимости оттого, какие лексические единицы используются, различают частотные словари слов, словоформ, основ слов, словосочетаний и т.п.

Самый первый частотный словарь русского языка был опубликован в 1953 году и состоял из 1700 слов. В научной школе в Таллине в 1963 году был издан первый в Советском Союзе частотный словарь русского языка, включающий в себя 2500 слов. Такое небольшое количество слов (1700 и 2500) в словарях объясняется тем, что все вычисления проводились лингвистами вручную. Использование ЭВМ для создания списка слов по частоте их употребления для русского языка произошло в 1977 году. Так был составлен частотный словарь Л.Н. Засориной, содержащий 40000 слов. Однако при создании этого словаря обрабатывались в основном тексты, связанные с атрибутикой советской власти, и по этой причине в него входило очень мало слов, используемых в настоящее время. Так начинает свое формирование научное направление, занимающееся составлением списков слов по частоте их употребления с использованием компьютерных технологий.

Несмотря на то, что первый частотный словарь был составлен около шестидесяти лет назад, в настоящее время подобного рода словари является очень эффективным и широко используемым на практике инструментом для решения многих проблем искусственного интеллекта. Главной целью составления списков слов по частоте является анализ корпусов текстов, определение наиболее характерных для них слов и последующий сравнительный анализ.