пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

Лингвистические информационные ресурсы

Лингвистические информационные ресурсы – это одна из составляющих частей информационных ресурсов.

Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества.

К пассивным формам информационных ресурсов относят книги, журналы, 

газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

Активные формы включают алгоритмы, модели, программы, базы

знаний.

Лингвистические информационные ресурсы – это множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях информации и используемых в различных сферах практической деятельности (образовании, промышленности, экономике, культуре, искусстве, издательстве и т.п.).

Термин «лингвистические ресурсы» впервые был использован итальянским ученым Антонио Замполли в 1992 году. Он употребил его в докладе «Структура Европейского агентства языковых технологий», который сделал на конференции, посвященной проблемам создания основы для развития 

индустрии европейских языков. Выбор этого термина был связан с необходимостью выразить идею о том, что большие массивы лингвистических данных и описаний, используемые для создания и развития эффективных систем обработки текста и речи, играют такую же существенную, фундаментальную роль, как и железные дороги, автомобильные шоссе, электросети (электроэнергия), средства коммуникации для промышленности и экономического развития страны.

С современной точки зрения пассивные лингвистические информационные ресурсы включают следующее множество лингвистических данных (схема).

1111

 

В самом общем виде лингвистические ресурсы – это своеобразные лингвистические базы данных, которые можно обновлять (добавлять новые данные, исключать или изменять старые) и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста и речи. В частности, они используются для распознавания речи и анонимных текстов, реферирования, аннотирования и перевода текстов, построения диалоговых систем, автоматического анализа текста, синтеза речи и текста и т.д.

Проблемам создания лингвистических ресурсов ежегодно посвящается большое число международных и национальных научных конференций во всем мире. Создан ряд крупных организаций, объединяющих исследователей десятков стран, занимающихся разработкой лингвистических ресурсов. Наиболее известными из них являются LDC (Linguistic Data Consortium) (США), ELRA (European Language Resources Association) и TELRI (Trans European Language Resources Infrastucture) (Европа). Однако лингвистические традиции стран — участниц этих объединений, недостаточность финансирования, разобщенность участников приводят к тому, что лингвистические ресурсы, созданные отдельными коллективами одной страны, не всегда могут быть использованы в других 

странах. Все это ставит перед разработчиками лингвистических 

ресурсов ряд проблем, важнейшими из которых являются следующие:

1. Разработка единых стандартов создания ресурсов.

2. Разработка способов защиты лингвистических ресурсов от несанкционированного доступа.

3. Создание единых экспертных требований.

4. Планирование единой стратегии разработки лингвистических ресурсов.

5. Создание многофункциональных лингвистических ресурсов большого объема для использования в разных странах.


27.05.2014; 22:03
хиты: 147
рейтинг:0
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь