пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

24.МП

Машинный перевод

Прежде чем говорить собственно о машинном переводе, скажем пару слов о переводе в целом. Итак, под переводом традиционно понимается процесс передачи содержания текста на одном языке средствами другого языка, а также результаты этого процесса. Наука о переводе включает не­сколько направлений, среди которых выделяются теория перевода, анализ перевода, методика обучения переводу. Особое место занимает машинный перевод — научная и одновременно технологическая дисциплина, связан­ная и с наукой о переводе и с компьютерной лингвистикой. Как и мно­гие другие дисциплины прикладной лингвистики, перевод является дисциплиной междисциплинарен, и связан не только с собственно лингвистикой, но и с ли­тературоведением, когнитивными науками и культурной антропологией. Междисциплинарность теории перевода и ее практических при­ложений указывает на то, что перевод является не чисто языковым, а довольно сложным когнитивным феноменом. Переводя с одного языка на другой, человек использует как свои языковые знания и способности, так и самые разнообразные экстралингвистические знания, причем этапы понимания и синтеза текста принципиально различаются.

Появление машинного перевода

Начало работ по ма­шинному переводу (МП) или автоматическому переводу (АП) относят к 50-м гг. XX в. Идея машинного перевода обязана своим происхождени­ем чисто практическим нуждам. В начале 50-х происходит информа­ционный взрыв, в результате которого существенно возрастают объемы научно-технической информации. Ручной перевод всей научной и технологической периодики оказы­вается невозможным. Дополнительный импульс исследованиям в области МП дает «холодная война», поскольку две противостоящие общественно-политические системы внимательно следят за развитием научно-технического потен­циала друг друга. Именно по этой причине многие первые системы МП работают с русским и английским языками.

Формальной датой начала эры машинного перевода считается 1949 г. В этом году известный американский специалист по дешифровке Уоррен Уивер составил меморандум, в котором теоретически обосновал принципиаль­ную возможность создания систем МП. Он исходил из того, что структур­ное сходство между языками может быть формально описано, а это явля­ется необходимым условием разработки алгоритмов перевода текстов для ЭВМ. Меморан­дум был разослан двумстам специалистам в области лингвистики, деши­фровки и теории программирования. С этого времени в США появляются коллективы разработчиков систем МП (в Массачусетском технологическом ин­ституте (MIT), в Калифорнийском университете, в Национальном бюро стандартов в Лос-Анджелесе, в Техасском университете). Первая между­народная конференция по МП организуется в 1952 г. в MIT. Наконец, в 1954 г. проводится известный Джорджтаунский эксперимент, в про­цессе которого осуществляется перевод с русского языка на английский. Хотя программа работала со словарем всего лишь в 250 слов, успех этого эксперимента стимулировал дальнейшие исследования в области МП.

В СССР первый эксперимент по МП прошел в 1955 г.: был осу­ществлен перевод на русский язык текстов по прикладной математике. К этому времени относится начало работ по МП в Институте прикладной математики АН СССР под руководством О. С. Кулагиной и И. А. Мель­чука. Коллектив разработчиков создал три экспериментальные систе­мы МП — с французского языка на русский (ФР-1), с английского на русский и с французского на русский (в новом варианте). В 1959 г. открывается Лаборатория машинного перевода в МГПИ-ИЯ им. М. Тореза (ныне Московский государственный лингвистический университет), в которой возникли идеи, во многом предвосхитившие дальнейшее развитие теории МП и в какой-то степени систем искус­ственного интеллекта — концепция языка-посредника, понятие модели управления слова, роль словаря в МП и т. д. Серия публикаций этой лаборатории под общим названием «Машинный перевод и прикладная лингвистика» оказала существенное влияние не только на прикладную, но и на теоретическую лингвистику. Многие из этих идей нашли отражение в проекте системы англо-русского автоматичес­кого перевода (АРАП), которая, однако, не была завершена.

Изначально предполагалось, что системы МП не должны быть огра­ничены какой-либо определенной проблемной сферой. Иными словами, машинный перевод должен осуществляться на текстах любых типов — от научно-технических до худо­жественных. Впрочем, довольно быстро обнаружилось, что это невозможно. Причины этой невозможности были разделены на две группы — лингвистические и экстралингвистичес­кие. Лингвистические причины сводились к тому, что для разработки систем МП недостаточно имеющихся знаний о функционировании языковой систе­мы. Нужны фундаментальные теоретические разработки в области изуче­ния языка, поскольку традиционной лингвистике (за очень небольшими исключениями) была чужда сама постановка задачи машинного перевода, предполагавшая создание компьютерных моделей анализа и синтеза вы­сказываний. Кроме того, многообразие функций языка, преимуществен­но имплицитный характер языковой способности человека существенно затрудняли формализацию знаний о языковой системе. К экстралингви­стическим причинам было отнесено осознание того факта, что процесс понимания — важнейшая составляющая процесса перевода — далеко не обеспечивается чисто лингвистическим анализом речевого сообщения. Понимание во многом основывается на знаниях адресата, его способности делать выводы и умозаключения, кроме того оно связано с коммуникативной установкой адресата в данной ситуации общения и т. д.

Возникшее разочарование в машинном переводе было даже формально зафиксировано в 1966 г. в докладе консультативного комитета по автоматической обработ­ке естественных языков (ALPAC) при Национальной академии наук США. Основной упор в докладе делался на том, что ни одна из систем МП не оправдала возлагавшихся на нее надежд ни в аспекте качества пе­ревода, ни в аспекте экономичности. По приводившимся там данным, «естественный» перевод оказывался существенно дешевле машинного. Доклад привел к свертыванию государственного финансирования про­ектов создания систем МП в США, что прямо повлияло на позицию государственных структур по отношению к поддержке разработок в обла­сти МП во все мире. Однако, несмотря на скепсис относительно перспектив МП, многие из первых систем, создан­ных ещё в 60-е гг., продолжали эксплуатироваться заказчиками. Большинство конечных пользователей мало интересовало качество перевода (а его низкое качество — один из важнейших пунктов обвинения в докладе комитета ALPAC). Для потребителей было важнее быстро в общих чертах оценить информационный поток в научной и технической периодике, после чего материал, который вызывал интерес, переводился традиционным способом. Кроме того, не прекратилось финансирование исследований в сфере МП частными компаниями, заинтересованными не только в отслеживании мировых тенденций научно-технического про­гресса, но и в переводе огромных объемов технической документации, требующемся при экспорте и импорте различной продукции, в том числе и высокотехнологичной.

С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к МП. В Москве в 1974 г. в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского пере­вода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В этом же году создается Всесоюзный центр переводов (ВЦП), в котором ряд науч­ных коллективов работает над системами машинного перевода — АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.

Переводческие стратегии в МП

Первые си­стемы МП характеризовались т.н. стратегией «прямого перевода». Сущность этого подхода к построению МП заключается в том, что исходный текст на языке L1 (язык оригинала) постепенно через ряд этапов преобразует­ся в текст языка L2 (язык перевода). Преобразования сводятся к тому, что слово (словосочетание) на входном языке заменяется на его словар­ный эквивалент на выходном языке. Понятно, что в системах, использующих стратегию прямого перевода, нет необходи­мости моделировать функционирование языковой системы в целом. Для работы таких систем оказывается вполне достаточно простого набора правил словарных соответствий. В редких случаях проводится анализ контекста для пере­вода не однословных выражений (которые, также представлены в словаре системы). Важно иметь в виду, что стратегия прямого перевода не дела­ет различий между пониманием (анализом) и синтезом (порождением), поскольку они фактически исключены из преобразований по правилам словарных соответствий. Также следует иметь ввиду, что прямой перевод всегда привязан к конкретной паре языков. Например, неоднозначность выражений входного языка разрешается только в той степени, в которой это оказывается необхо­димым для выходного языка. Стратегия прямого перевода в принципе неприменима для проектирования систем МП на более, чем один язык. По временным рамкам системы первого поколения в основном созда­вались в период с конца 40-х до середины 60-х гг. Один из типичных примеров системы такого типа — разбираемая ниже программа GAT.

Существенная модификация стратегии «прямого перевода» обнару­живается в системах с «трансфером» — этапом межъязыковых операций, не сводимых только к замене лексем входного языка на словарные со­ответствия выходного языка. Наличие этапа трансфера предполагает по­строение «промежуточного» или «внутреннего» представления, которое далее «приспосабливается» к структуре предложения выходного языка. В отличие от первой стратегии, в архитектуре систем МП с трансфе­ром анализ (понимание) и синтез существуют как особые процедуры и обслуживаются различными алгоритмами. В некотором смысле систе­мы с трансфером оказываются промежуточным звеном между стратегией прямого перевода и последующей стратегией языка-посредника (о которых ниже).

Критика стратегии прямого перевода привела к созданию т.н. «стратегии языка-посредника». Главная особенность этой стратегии заключаются в том, что между струк­турами входного языка и структурами выходного языка находится один или несколько промежуточных языков, на которые по соответствующим правилам последовательно «переписываются» выражения языка L1. Анализ и синтез при использовании языка-посредника принципиально разделяются. Анализ ведется в категориях языка оригинала, а синтез — в категориях языка перевода. В качестве языка (языков)-посредников могут выступать языки представления синтаксической и семантико-синтаксической структуры, чисто семантические языки, языки глубинной семан­тики, приближающиеся к концептуальному представлению в категориях теории знаний (фреймов, сценариев, планов). Системы машинного пе­ревода, основанные на знаниях (knowledge-based systems), возникшие в 80-х гг., рассматриваются как часть систем искусственного интеллекта. Достаточно условно эта стратегия соответствует второму поколению систем МП с тем уточнением, что системы второго поколения исполь­зуют почти исключительно синтаксические и семантико-синтаксические языки-посредники.

Последовательное проведение идеи языка-посредника привело к воз­никновению стратегии «универсального семантического языка», независи­мого от конкретного входного и выходного языка. Преимущества такой стратегии очевидны. Однако современное состояние семантической те­ории не оставляет надежд на успешную реализацию этой стратегии в ближайшем будущем. Таким образом, системы МП третьего поколения остаются в настоящее время весьма отдаленной перспективой.

Как компенсация проблем, возникших со стратегией универсально­го семантического языка, развивается несколько промежуточных стра­тегий, позволяющих существенно улучшить параметры промышленных систем МП. Стратегия «сужения проблемной области» предлагает разра­ботчикам МП ориентироваться на узкие тематические сферы текстов. Это позволяет существенно облегчить словарь системы МП и ограничиться только теми особенностями устройства языковой системы, которые ре­ально представлены в данном подъязыке. Эта стратегия универсальна для многих сфер прикладной лингвистики — от лексикографии до лин­гвистического обеспечения информационно-поисковых систем и систем искусственного интеллекта. Стратегия «ограниченного машинного пере­вода» позволяет включать в технологическую цепочку автоматического перевода человека — на этапе предредактирования, постредактирования или в режиме обработки текста (например, для разрешения синонимии и омонимии).

Типология систем машинного перевода

Компьютерные средства перевода обычно разделяют на три больших группы: систе­мы машинного перевода, системы человеко-машинного перевода (ЧМП) и терминологические базы/банки данных (ТБД).

Системы собственно машинного перевода не исключают (а, как правило, и предполагают) участие человека на этапе предредактирования и постредактирования. В данном случае существенно, что после ввода текста в систему пере­вод осуществляется без вмешательства человека. Используются только алгоритмы и словари, введенные в ЭВМ.

Системы человеко-машинного перевода, в свою очередь, разделяются на две подгруппы: системы машинного перевода с участием человека и си­стемы человеческого перевода с участием машины. В первом случае ком­пьютерная программа сама осуществляет перевод, однако на определен­ных этапах она может обратиться к человеку, предложив ему, например, выбрать наиболее подходящее слово для перевода, дать синоним для неиз­вестного выражения или определить структуру сложной синтаксической конструкции. Наконец, человеческий перевод с участием машины все­гда осуществляется в режиме реального времени, причем основную часть работы по переводу берет на себя человек. Переводчик обращается к ком­пьютеру для автоматической обработки отдельных фрагментов текста, для вызова информации из терминологических банков данных (часто уда­ленных), для автоматического форматирования результирующего текста, проверки орфографии и пунктуации и т. д. Компьютерные системы такого рода иногда называют автоматизированным рабочим местом переводчика.

Терминологические банки данных удобны тем, что они легко мо­дифицируются и позволяют фиксировать самую последнюю словарную информацию по выбранной проблемной области. Часто они исполь­зуются для создания обычных двуязычных и многоязычных словарей, а также для разработки автоматизированных словарей систем МП. ТБД составляют важную часть рабочего места переводчика.

 

 

 


10.06.2014; 21:08
хиты: 299
рейтинг:0
Гуманитарные науки
лингвистика и языки
математическая лингвистика
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь