47373

Системы машинного перевода

Лекция

Информатика, кибернетика и программирование

Традиционный перевод текстов, т.е. без применения средств автоматизации, многих перестает устраивать, поскольку требует больших затрат времени и, главное, знаний и навыков. Благодаря возможностям компьютера появилась возможность перевода текстов без знания языка и достаточно быстро.

Русский

2014-03-30

24.33 KB

12 чел.

Тема 7. Системы машинного перевода

Традиционный перевод текстов, т.е. без применения средств автоматизации, многих перестает устраивать, поскольку требует больших затрат времени и, главное, знаний и навыков. Благодаря возможностям компьютера появилась возможность перевода текстов без знания языка и достаточно быстро.

На сегодняшний день существует две технологии автоматизации переводов: системы Translation Memory (TM) и машинного перевода (МП).

Принцип работы систем ТМ построен на сравнении текста, подлежащего переводу, с внутренней базой, хранящей разбитый на предложения параллельный текст на исходном языке и его перевод, полученный традиционным способом. При загрузке нового документа в ТМ-систему происходит его разделение на сегменты и сопоставление с текстами из базы. Часть этих сегментов оказывается уже переведенной ранее, и система визуализирует их как уже известные, другие — как частично совпадающие с БД, а некоторые — как требующие перевода. Таким образом, переводчику не нужно тратить усилия на то, что он уже делал прежде. Подобные системы оказываются весьма эффективными при переводе аналогичных документов, например повторяющейся технической документации: ее можно перевесь, один раз, а для последующих выпусков достаточно переводить лишь изменения в первоисточнике.

Применение ТМ эффективно при переводе технической, финансовой, юридической и другой документации, с высокой степенью повторяемости текстов (в среднем количество повторов в проекте может достигать 50%, что означает увеличение скорости перевода в полтора-два раза). Использование данных систем также целесообразно при коллективной работе, когда необходимо обеспечить согласованный перевод в рамках одного проекта. Весь перевод автоматически сохраняется в единой базе данных, доступной всем участникам процесса перевода. В режиме реального времени пользователи видят результаты перевода друг друга. При этом переводчики могут находиться в одной локальной сети или подключаться удаленно. Это особенно важно для компаний, имеющих филиалы в разных городах и даже странах.

Среди подобных систем наиболее распространенной является SDL Trados (http://www.trados.com/). Она стала своего рода промышленным стандартом письменного перевода. По независимым оценкам, 80% переводчиков во всем мире применяют решения SDL Trados. СПО альтернативой весьма дорогой системе является OmegaT (http://www.omegat.org/, http://omegat.info/), обладающая однако не столь обширными функциями.

Данные программные продукты ориентированы для профессиональных переводчиков. Специалистам по связям с общественностью и рекламе следует быть осведомленными о существовании таких ПО, однако в их каждодневной работе они вряд ли будут полезными в отличие от технологий машинного перевода (МП).

Существуют два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах (rule-based) и основанный на статистике (statistical-based).

1. «rule-based» подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ, on-line переводчик Translate.ru в России, SYSTRAN во Франции, Linguatec в Германии и др.)

PROMT (http://www.promt.ru/)- российское ПО, созданное в 1991 году. В 1992 году было изменено название на STYLUS, а в 1998 году было возвращено прежнее название. В 1993 году был создан пакет Stylus for Windows 2.0, ставший первой в мире программой перевода в среде Windows 3.1.

На сегодняшний день существует три основные сборки переводчика для домашнего использования: 4U, Standard, Professional, которые имеют по несколько версий в зависимости от комплектации (дополнительные словари, дополнительные опции). Стоимость колеблется от 720 до 18 тыс. рублей. Предложения для малого бизнеса стоят от 18 до 35 тыс. рублей. Далеко не каждая фирма сможет позволить себе подобное ПО.

PROMT Professional 9.5 (стоимость 18 тыс. руб.) позволяет быстро и качественно перевести технический документ, отраслевой сайт, деловое письмо или сообщение от партнера. Загрузив текст целиком можно получить связный перевод текста, а также полную справку по отдельным словам и словосочетаниям. Поддерживает пять направлений перевода с участием русского языка, в том числе с итальянского на русский. Документы можно переводить в среде MS Office 2000-2010 или OpenOffice Writer. Pdf-документы можно переводить как в редакторе PROMT с сохранением исходного форматирования, или в интерфейсе программ Adobe Acrobat и Adobe Professional. Грамматическая и стилистическая проверка позволяют избежать ошибок из-за опечаток. Присутствует возможность пакетного перевода. Осуществляет перевод веб - страниц в браузерах Internet Explorer, Mozilla Firefox, Opera и Google Chrome; сообщений в ICQ, Skype, QIP, Windows Live Messenger.

Технология Text-to-Speech позволяет услышать как звучит исходный текст или текст перевода. PROMT предлагает приобрести дополнительно около 180 словарей по 33 тематикам, или создать собственный пользовательский словарь.

Среди систем электронного перевода программы-переводчики PROMT получили наибольшее распространение. Они предоставляют широкие возможности по настройке на перевод текстов, подключению специализированных словарей (PROMT предлагает приобрести дополнительно около 180 словарей по 33 тематикам) или создать собственный пользовательский словарь. Текст для перевода может вводиться не только с клавиатуры или редактора, но и со сканера. При работе со сканером и наличии установленной на компьютере какой-либо системы оптического распознавания текстов (OCR) (FineReader, Cunieform или AutoR) можно запустить OCR-программу непосредственно из системы PROMT (об OCR-системах см. Тема 6.).

В 1998 году компания PROMT открывает первый российский веб-сервис, предназначенный для перевода текста или веб-страниц на другие языки Translate.ru (http://www.translate.ru/translator.asp?lang=ru). При переводе отдельного слова выдаёт словарную статью. Один из двух самых популярных онлайн-переводчиков в Рунете (второй - Google Переводчик). На сегодняшний момент поддерживается 25 направлений перевода. Кроме переводчика текстов, сервис включает в себя переводчик сайтов. Среди дополнительных возможностей сервис предлагает: автоопределение языка, виртуальную клавиатуру, проверку орфографии, ручной перевод (обращение в бюро переводов). При переводе слова пользователь дополнительно может прослушать его звучание на языке оригинала.

Недостатки сервиса: ограничение объёма переводимого текста (не более 3000 символов), при регистрации объём увеличивается до 10000 символов; ограничение размера переводимой веб-страницы (не более 500 Кб).

2. «Переводчики» использующие самообучаемый алгоритм статистического машинного перевода («statistical-based»).

К этому типу относятся сервисы переводчик Google, а также новый сервис от ABBYY.

Google Translator (http://translate.google.ru/) единственный on-line переводчик, не ограничивающий объем переводимого текста. Использует собственное программное обеспечение. Привлекает дружественный интерфейс, возможность автоматического определения языка, перевод веб-сайтов. От других аналогичных сервисов отличает скорость и функция автозаполнение, при ручном вводе текста. Имеется возможность услышать произношение текста. У сервиса есть свои особенности из-за того, что выдача вариантов контролируется статистическим алгоритмом, при переводе обычных общеупотребительных слов Google Переводчик может предлагать в числе возможных вариантов нецензурные слова. На результат выдачи также можно повлиять, массово предлагая некий, в том числе, заведомо неверный вариант перевода.

Google Переводчик предлагает перевод с любого поддерживаемого языка на любой поддерживаемый, но в большинстве случаев реально выполняет перевод через английский. Иногда качество от этого сильно страдает.

Компания Abbyy предлагает пользователям сервис «TextGrabber + Translater» (http://www.abbyy.ru/textgrabber_translator/). Принцип работы предполагает слудующее: пользователю достаточно запустить приложение, сфотографировать текст, который необходимо перевести, нажать кнопку «распознать», потом текст можно отредактировать и перевести на один из 40 доступных языков. Помимо полнотекстового перевода в программе доступен пословный перевод, при наличии на устройстве установленного словаря.

В повседневной работе могут весьма полезны словари.

Среди отечественных электронных словарей выделяется мощный профессиональный словарь ABBYY Lingvo х5 (http://www.lingvo.ru/). Нажатие «горячей клавиши» в любом Windows-приложении за считанные секунды выведет на экран информацию, отобранную для перевода слова (фразы) из всех словарей, подключённых к системе. Lingvo является хорошим средством для оперативной помощи при переводе, когда надо быстро просмотреть варианты перевода слова.

Грамматические комментарии на любое слово, озвучивание наиболее употребляемых слов, проверка правильности написания, возможность создания собственных словарей — вот перечень основных возможностей Lingvo, используемых не только при переводе текста, но и при изучении иностранного языка.

В сети доступно большое количество on-line словарей.

Мультитран (http://www.multitran.ru/) в настоящее время это один из наиболее полных и самых популярных автоматических онлайновых словарей Рунета. Помимо интернет-версии, распространяется оффлайн-версия «Мультитрана».

Dicto (http://dicto.org.ru/) электронный словарь, обладает полным набором свойств, свойственных качественным комплексным средствам перевода, в том числе возможностью использования глобальных горячих клавиш для перевода из внешних приложений и высокой скоростью работы. Работа над проектом приостановлена с 2009 года.

Вопросы по теме:

1. В чем заключается различие технологий Translation Memory и машинного перевода?

2. Назовите наиболее распространенные программные продукты, чья работа строится на основании «rule-based» подхода?

3. В чем заключается недостаток статистического («statistical-based») алгоритма машинного перевода?


 

А также другие работы, которые могут Вас заинтересовать

36259. Обеспечение информационной безопасности. Система обнаружения атак RealSecure: назначение, компоненты, возможности 83.5 KB
  Система обнаружения атак RelSecure: назначение компоненты возможности. Система RelSecure Система обнаружения атак RelSecure разработана американской компанией Internet Security Systems Inc. Система RelSecure – это интеллектуальный анализатор пакетов с расширенной базой сигнатур атак который позволяет обнаруживать враждебную деятельность и распознавать атаки на узлы Вашей корпоративной сети. Система RelSecure построена по технологии анализа сетевых пакетов в реальном масштабе времени reltime pcket nlysis относится к...
36260. Аппаратно-программные платформы администрирования. Административная консоль Exchange. Средства мониторинга серверов и трассировки сообщений 92.5 KB
  Средства мониторинга серверов и трассировки сообщений. Внешний вид административной консоли сервера Exchnge Из утилиты администрирования возможно выполнение таких функций как: создание модификация и удаление объектов каталога; создание настройка и удаление коннекторов; настройка синхронизации каталогов и репликации общих папок; контроль за состоянием серверов путем создания и запуска мониторов; установка степени подробности диагностических сообщений; трассировка сообщений; экспорт и импорт объектов...
36261. Службы Windows. Назначение и управление службами. Журнал событий. Планировщик заданий 130 KB
  Отключено Авто или Вручную У службы есть три возможности запуска: Отключено Эта служба никогда не стартует. Вручную Эта служба не будет запущена автоматически но возможен её запуск через другую службу или программу. Оставьте тип запуска Вручную если Вы не подключены к локальной сети.Оставьте его запускаемым Вручную.
36262. Технологии сбора информации 250.5 KB
  Технологии сбора информации. Информационные процессы сбор обработка и передача информации всегда играли важную роль в науке технике и жизни общества. Сбор информации это деятельность субъекта в ходе которой он получает сведения об интересующем его объекте. Обмен информацией это процесс в ходе которого источник информации ее передает а получатель принимает.
36263. Хранение информации. Структура базовой информационной технологии 130 KB
  Хранение информации данных не является самостоятельной фазой в информационном процессе а входит в состав фазы обработки. Различают структурированные данные в которых отражаются отдельные факты предметной области это основная форма представления данных в СУБД и неструктурированные произвольные по форме включающие и тексты и графику и прочие данные. Эта форма представления данных широко используется например в Интернеттехнологиях а сами данные предоставляются пользователю в виде отклика поисковыми системами. Организация того или...
36264. Информационные технологии поиска информации 274.5 KB
  Информационные технологии поиска информации Поиск информации: основные понятия виды и формы организации Поиск информации или информационный поиск представляет один из основных информационных процессов. Цели возможности и характер поиска всегда зависели от наличия информации её важности и доступности а также средств организации поиска. Цель любого поиска заключается в потребности необходимости или желании находить различные виды информации способствующие получению лицом осуществляющим поиск нужных ему сведений знаний и т. Это...
36265. Интерфейсы ИПС. Особенности ИПС глобальных сетей. Поиск в Internet 142.5 KB
  Глобальные поисковые системы в отличие от локальных стремятся объять необъятное по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет. Следует отметить что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях реально существующих в сети. Локальные и глобальные сети Internet В зависимости от удаленности компьютеров сети условно разделяют на локальные и глобальные. Произвольная глобальная сеть может включать другие глобальные сети локальные сети а также...
36266. Технологии обработки информации. Распределенная обработка информации. Системы централизованной обработки информации 43 KB
  Технологии обработки информации. Системы централизованной обработки информации. Информационная технология обработки данных предназначена для решения хорошо структурированных задач по которым имеются необходимые входные данные и известны алгоритмы и другие стандартные процедуры их обработки. Режим реализации технологии зависит от объемновременных особенностей решаемых задач: периодичности и срочности требований к быстроте обработки сообщений а также от режимных возможностей технических средств и в первую очередь ЭВМ.
36267. Системы распределенной обработки информации 99 KB
  Возможность взаимодействия вычислительных систем при реализации распределенной обработки информации определяют как их способность к совместному использованию данных или к совместной работе с использованием стандартных интерфейсов. Распределённые системы обработки данных В современных сетевых информационных технологиях всё чаще используют распределённую обработку данных. Под распределённой обработкой данных понимают обработку приложений несколькими территориально разделёнными ЭВМ. При этом в приложениях связанных с обработкой базы данных...