Машинный перевод
Прежде чем говорить собственно о машинном переводе, скажем пару слов о переводе в целом. Итак, под переводом традиционно понимается процесс передачи содержания текста на одном языке средствами другого языка, а также результаты этого процесса. Наука о переводе включает несколько направлений, среди которых выделяются теория перевода, анализ перевода, методика обучения переводу. Особое место занимает машинный перевод — научная и одновременно технологическая дисциплина, связанная и с наукой о переводе и с компьютерной лингвистикой. Как и многие другие дисциплины прикладной лингвистики, перевод является дисциплиной междисциплинарен, и связан не только с собственно лингвистикой, но и с литературоведением, когнитивными науками и культурной антропологией. Междисциплинарность теории перевода и ее практических приложений указывает на то, что перевод является не чисто языковым, а довольно сложным когнитивным феноменом. Переводя с одного языка на другой, человек использует как свои языковые знания и способности, так и самые разнообразные экстралингвистические знания, причем этапы понимания и синтеза текста принципиально различаются.
Появление машинного перевода
Начало работ по машинному переводу (МП) или автоматическому переводу (АП) относят к 50-м гг. XX в. Идея машинного перевода обязана своим происхождением чисто практическим нуждам. В начале 50-х происходит информационный взрыв, в результате которого существенно возрастают объемы научно-технической информации. Ручной перевод всей научной и технологической периодики оказывается невозможным. Дополнительный импульс исследованиям в области МП дает «холодная война», поскольку две противостоящие общественно-политические системы внимательно следят за развитием научно-технического потенциала друг друга. Именно по этой причине многие первые системы МП работают с русским и английским языками.
Формальной датой начала эры машинного перевода считается 1949 г. В этом году известный американский специалист по дешифровке Уоррен Уивер составил меморандум, в котором теоретически обосновал принципиальную возможность создания систем МП. Он исходил из того, что структурное сходство между языками может быть формально описано, а это является необходимым условием разработки алгоритмов перевода текстов для ЭВМ. Меморандум был разослан двумстам специалистам в области лингвистики, дешифровки и теории программирования. С этого времени в США появляются коллективы разработчиков систем МП (в Массачусетском технологическом институте (MIT), в Калифорнийском университете, в Национальном бюро стандартов в Лос-Анджелесе, в Техасском университете). Первая международная конференция по МП организуется в 1952 г. в MIT. Наконец, в 1954 г. проводится известный Джорджтаунский эксперимент, в процессе которого осуществляется перевод с русского языка на английский. Хотя программа работала со словарем всего лишь в 250 слов, успех этого эксперимента стимулировал дальнейшие исследования в области МП.
В СССР первый эксперимент по МП прошел в 1955 г.: был осуществлен перевод на русский язык текстов по прикладной математике. К этому времени относится начало работ по МП в Институте прикладной математики АН СССР под руководством О. С. Кулагиной и И. А. Мельчука. Коллектив разработчиков создал три экспериментальные системы МП — с французского языка на русский (ФР-1), с английского на русский и с французского на русский (в новом варианте). В 1959 г. открывается Лаборатория машинного перевода в МГПИ-ИЯ им. М. Тореза (ныне Московский государственный лингвистический университет), в которой возникли идеи, во многом предвосхитившие дальнейшее развитие теории МП и в какой-то степени систем искусственного интеллекта — концепция языка-посредника, понятие модели управления слова, роль словаря в МП и т. д. Серия публикаций этой лаборатории под общим названием «Машинный перевод и прикладная лингвистика» оказала существенное влияние не только на прикладную, но и на теоретическую лингвистику. Многие из этих идей нашли отражение в проекте системы англо-русского автоматического перевода (АРАП), которая, однако, не была завершена.
Изначально предполагалось, что системы МП не должны быть ограничены какой-либо определенной проблемной сферой. Иными словами, машинный перевод должен осуществляться на текстах любых типов — от научно-технических до художественных. Впрочем, довольно быстро обнаружилось, что это невозможно. Причины этой невозможности были разделены на две группы — лингвистические и экстралингвистические. Лингвистические причины сводились к тому, что для разработки систем МП недостаточно имеющихся знаний о функционировании языковой системы. Нужны фундаментальные теоретические разработки в области изучения языка, поскольку традиционной лингвистике (за очень небольшими исключениями) была чужда сама постановка задачи машинного перевода, предполагавшая создание компьютерных моделей анализа и синтеза высказываний. Кроме того, многообразие функций языка, преимущественно имплицитный характер языковой способности человека существенно затрудняли формализацию знаний о языковой системе. К экстралингвистическим причинам было отнесено осознание того факта, что процесс понимания — важнейшая составляющая процесса перевода — далеко не обеспечивается чисто лингвистическим анализом речевого сообщения. Понимание во многом основывается на знаниях адресата, его способности делать выводы и умозаключения, кроме того оно связано с коммуникативной установкой адресата в данной ситуации общения и т. д.
Возникшее разочарование в машинном переводе было даже формально зафиксировано в 1966 г. в докладе консультативного комитета по автоматической обработке естественных языков (ALPAC) при Национальной академии наук США. Основной упор в докладе делался на том, что ни одна из систем МП не оправдала возлагавшихся на нее надежд ни в аспекте качества перевода, ни в аспекте экономичности. По приводившимся там данным, «естественный» перевод оказывался существенно дешевле машинного. Доклад привел к свертыванию государственного финансирования проектов создания систем МП в США, что прямо повлияло на позицию государственных структур по отношению к поддержке разработок в области МП во все мире. Однако, несмотря на скепсис относительно перспектив МП, многие из первых систем, созданных ещё в 60-е гг., продолжали эксплуатироваться заказчиками. Большинство конечных пользователей мало интересовало качество перевода (а его низкое качество — один из важнейших пунктов обвинения в докладе комитета ALPAC). Для потребителей было важнее быстро в общих чертах оценить информационный поток в научной и технической периодике, после чего материал, который вызывал интерес, переводился традиционным способом. Кроме того, не прекратилось финансирование исследований в сфере МП частными компаниями, заинтересованными не только в отслеживании мировых тенденций научно-технического прогресса, но и в переводе огромных объемов технической документации, требующемся при экспорте и импорте различной продукции, в том числе и высокотехнологичной.
С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к МП. В Москве в 1974 г. в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В этом же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода — АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.
Переводческие стратегии в МП
Первые системы МП характеризовались т.н. стратегией «прямого перевода». Сущность этого подхода к построению МП заключается в том, что исходный текст на языке L1 (язык оригинала) постепенно через ряд этапов преобразуется в текст языка L2 (язык перевода). Преобразования сводятся к тому, что слово (словосочетание) на входном языке заменяется на его словарный эквивалент на выходном языке. Понятно, что в системах, использующих стратегию прямого перевода, нет необходимости моделировать функционирование языковой системы в целом. Для работы таких систем оказывается вполне достаточно простого набора правил словарных соответствий. В редких случаях проводится анализ контекста для перевода не однословных выражений (которые, также представлены в словаре системы). Важно иметь в виду, что стратегия прямого перевода не делает различий между пониманием (анализом) и синтезом (порождением), поскольку они фактически исключены из преобразований по правилам словарных соответствий. Также следует иметь ввиду, что прямой перевод всегда привязан к конкретной паре языков. Например, неоднозначность выражений входного языка разрешается только в той степени, в которой это оказывается необходимым для выходного языка. Стратегия прямого перевода в принципе неприменима для проектирования систем МП на более, чем один язык. По временным рамкам системы первого поколения в основном создавались в период с конца 40-х до середины 60-х гг. Один из типичных примеров системы такого типа — разбираемая ниже программа GAT.
Существенная модификация стратегии «прямого перевода» обнаруживается в системах с «трансфером» — этапом межъязыковых операций, не сводимых только к замене лексем входного языка на словарные соответствия выходного языка. Наличие этапа трансфера предполагает построение «промежуточного» или «внутреннего» представления, которое далее «приспосабливается» к структуре предложения выходного языка. В отличие от первой стратегии, в архитектуре систем МП с трансфером анализ (понимание) и синтез существуют как особые процедуры и обслуживаются различными алгоритмами. В некотором смысле системы с трансфером оказываются промежуточным звеном между стратегией прямого перевода и последующей стратегией языка-посредника (о которых ниже).
Критика стратегии прямого перевода привела к созданию т.н. «стратегии языка-посредника». Главная особенность этой стратегии заключаются в том, что между структурами входного языка и структурами выходного языка находится один или несколько промежуточных языков, на которые по соответствующим правилам последовательно «переписываются» выражения языка L1. Анализ и синтез при использовании языка-посредника принципиально разделяются. Анализ ведется в категориях языка оригинала, а синтез — в категориях языка перевода. В качестве языка (языков)-посредников могут выступать языки представления синтаксической и семантико-синтаксической структуры, чисто семантические языки, языки глубинной семантики, приближающиеся к концептуальному представлению в категориях теории знаний (фреймов, сценариев, планов). Системы машинного перевода, основанные на знаниях (knowledge-based systems), возникшие в 80-х гг., рассматриваются как часть систем искусственного интеллекта. Достаточно условно эта стратегия соответствует второму поколению систем МП с тем уточнением, что системы второго поколения используют почти исключительно синтаксические и семантико-синтаксические языки-посредники.
Последовательное проведение идеи языка-посредника привело к возникновению стратегии «универсального семантического языка», независимого от конкретного входного и выходного языка. Преимущества такой стратегии очевидны. Однако современное состояние семантической теории не оставляет надежд на успешную реализацию этой стратегии в ближайшем будущем. Таким образом, системы МП третьего поколения остаются в настоящее время весьма отдаленной перспективой.
Как компенсация проблем, возникших со стратегией универсального семантического языка, развивается несколько промежуточных стратегий, позволяющих существенно улучшить параметры промышленных систем МП. Стратегия «сужения проблемной области» предлагает разработчикам МП ориентироваться на узкие тематические сферы текстов. Это позволяет существенно облегчить словарь системы МП и ограничиться только теми особенностями устройства языковой системы, которые реально представлены в данном подъязыке. Эта стратегия универсальна для многих сфер прикладной лингвистики — от лексикографии до лингвистического обеспечения информационно-поисковых систем и систем искусственного интеллекта. Стратегия «ограниченного машинного перевода» позволяет включать в технологическую цепочку автоматического перевода человека — на этапе предредактирования, постредактирования или в режиме обработки текста (например, для разрешения синонимии и омонимии).
Типология систем машинного перевода
Компьютерные средства перевода обычно разделяют на три больших группы: системы машинного перевода, системы человеко-машинного перевода (ЧМП) и терминологические базы/банки данных (ТБД).
Системы собственно машинного перевода не исключают (а, как правило, и предполагают) участие человека на этапе предредактирования и постредактирования. В данном случае существенно, что после ввода текста в систему перевод осуществляется без вмешательства человека. Используются только алгоритмы и словари, введенные в ЭВМ.
Системы человеко-машинного перевода, в свою очередь, разделяются на две подгруппы: системы машинного перевода с участием человека и системы человеческого перевода с участием машины. В первом случае компьютерная программа сама осуществляет перевод, однако на определенных этапах она может обратиться к человеку, предложив ему, например, выбрать наиболее подходящее слово для перевода, дать синоним для неизвестного выражения или определить структуру сложной синтаксической конструкции. Наконец, человеческий перевод с участием машины всегда осуществляется в режиме реального времени, причем основную часть работы по переводу берет на себя человек. Переводчик обращается к компьютеру для автоматической обработки отдельных фрагментов текста, для вызова информации из терминологических банков данных (часто удаленных), для автоматического форматирования результирующего текста, проверки орфографии и пунктуации и т. д. Компьютерные системы такого рода иногда называют автоматизированным рабочим местом переводчика.
Терминологические банки данных удобны тем, что они легко модифицируются и позволяют фиксировать самую последнюю словарную информацию по выбранной проблемной области. Часто они используются для создания обычных двуязычных и многоязычных словарей, а также для разработки автоматизированных словарей систем МП. ТБД составляют важную часть рабочего места переводчика.