пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

I семестр:
» гос

Билет 20. Основные принципы работы с национальным корпусом языка

Корпус – это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов.

Корпус создается лингвистами (специалистами по корпусной лингвистике) для научных исследований и обучения языку. Образцом корпуса является Британский национальный корпус, на него ориентированы многие другие современные корпуса. Среди славянских языков – чешский.

Национальный корпус имеет две особенности. 1. Характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус по возможности содержит все типы письменных и устных текстов, представленных в данном языке. Все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. 2. Корпус содержит особую дополнительную инф. о свойствах входящих в него текстов (разметку или аннотацию). Разметка – главная характеристика корпуса, она отличает его от простых коллекций текстов.

Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В нац. корпусе рус. языка используется пять типов разметки: метатекстовая, морфологическая, синтаксическая, акцентная и семантическая.

Нац. корпус рус. языка охватывает период от середины 18 в до начала 21 в. этот представляет язык предшествующих эпох и современный. В корпус включаются оригинальные произведения художественной литературы, имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но корпус не является только корпусом худ. литературы. Помимо худ. текстов в корпус включаются и другие образцы письменного языка.

Нац. корпус рус. языка в настоящее время включает следующие подкорпуса:

  • Основной корпус с прозаическими текстами
  • Синтаксический, в котором для каждого предложения построена полная морфологическая и синтаксическая структура
  • Газетный корпус (статьи сми 1990-2000)
  • Параллельные корпуса, в которых можно найти все переводы для определенного слова или словосочетания на рус. язык или с него.
  • Корпус диалектных текстов
  • Корпус поэтических текстов
  • Обучающий корпус русского языка
  • Корпус устной речи (расшифровки магнитофонных записей публичной и частной устной речи, транскрипты кинофильмов)
  • Корпус истории русского ударения (тексты, несущие инф. об истории русского ударения)
  • Мультимедийный корпус (снабженные видео- и аудиорядом фрагменты кинофильмов 1930-2000 гг. возможен поиск не только по произносимому тексту, н и по жестам и типу речевого действия)


04.06.2018; 18:34
хиты: 37
рейтинг:0
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь