Типы систем МП:
- На правилах языка (модель перевода человеком):
- Структуры систем МП, основанных на первой системе:
- В процессе морфологического анализа слов предложения исходного языка каждое слово получает наборы лексико-грамматических признаков ( часть речи, род и т.д.), ПК формирует эти наборы с опорой на специализированные двуязычные словари;
- Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения;
- Синтаксический синтез заключается:
- В создании предложения переводного языка определённой синтаксической структуры, определяемой правилами языков;
- Замена слов исходного языка на их переводные эквиваленты из словарей.
- Морфологический синтез каждого слова предполагаемого родного языка сводится к постановкам каждого слова в нужную форму, для чего ПК использует лексико-грамматические признаки слов переводного языка.
- Успех СМП зависит от автоматических словарей. Для всех слов закодированного вида указываются грамматические признаки и лексико-семантическая информация.
- Используются два типа представления лексических единиц в автоматическом словаре:
- В виде словоформ (словарь включает всевозможные лексические единицы и подаётся гнёздами);
- В виде квазиосновы ( числа, стоящие после, условно обозначают наборы суффиксов и окончаний, присоединяемых к основе для получения соответствующей формы, эти числа называются типами формообразования, а сами суффиксы и окончания – машинными окончаниями.
- Выбор типа лексической единицы зависит от:
- Типа языка (для флективных рациональнее использовать квазиоснову, для языков аналитического типа - словоформу);
- От объёма словаря и вычислительных ресурсов ПК;
- От типа системы СМП (для информативного перевода применяют квазиосноу, для профессионального – словоформу).
- Преимущества систем первой технологии:
- Синтаксическая и морфологическая точность;
- Стабильность и предсказуемость результатов;
- Возможность настройки на предметную область.
- Недостатки:
- Трудоёмкость и длительность разработки;
- Необходимость пополнения словарей;
- «Машинный» акцент.
- Системы второй технологии (основаны на поиске наиболее вероятного перевода с использованием данных из параллельных корпусов);
- Преимущества:
- Легко построить при наличии двуязычного корпуса;
- Перенос технологии на любые пары языков
- Лексическая гладкость.
- Недостатки:
- Ограниченность параллельных корпусов и их качество;
- Плохая справляемость с морфологией и синтаксисом;
- Искажение информации.
- Преимущества:
Обе технологии обладают своими преимуществами и недостатками и не решили задачу по достижению качественного МП. Система Promt разработала «Гибридную технологию перевода». Такой перевод сохраняет преимущества традиционной технологии (формирование синтаксически связанного и грамматически правильного текста) и преимущества статистического метода (быстрое обучение, получение данных из параллельных корпусов в автоматическом режиме и гладкость текстов).