пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

Корпусная лингвистика: история возникновения. Основные типы корпусов.

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.

В лингвистике, корпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.

Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке (аннотации). Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа.

Классификация корпуса текстов:

По степени организации и структурированности:

1. Электронный архив – это тексты на электронном носителе, но их форма представленая на машинном носителе не стандартизирована и не унифицирована.

2. Электронная библиотека – тексты здесь представлены однородным и стандартизированным образом.

3. Корпус текстов – форма стандартизирована и унифицирована, тексты предназначены для отражения части лингвистической реальности.

4. Субкорпус – это некоторая автономная часть корпуса.

По хронологическому признаку:

1. Синхронический;

2. Мониторный (отслеживает текущее состояние языка);

3. Диахронический.

По индексации:

1. Простой;

2. Аннотированный.

По языку:

1. Одноязычный;

2. Двуязычный;

3. Многоязычный (те, которые созданы специально для сопоставительного сравнения, называют параллельными корпусами).

По способу применения и использования корпуса:

1. Исследовательский;

2. Иллюстративный;

3. Параллельный.

По способу существования корпуса:

1. Динамический;

2. Статический.

История

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.

По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию.

По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный фонд русского языка, создававшийся по инициативе А. П. Ершова.


21.06.2019; 16:52
хиты: 72
рейтинг:0
Гуманитарные науки
лингвистика и языки
языки
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь