47373

Системы машинного перевода

Лекция

Информатика, кибернетика и программирование

Традиционный перевод текстов, т.е. без применения средств автоматизации, многих перестает устраивать, поскольку требует больших затрат времени и, главное, знаний и навыков. Благодаря возможностям компьютера появилась возможность перевода текстов без знания языка и достаточно быстро.

Русский

2014-03-30

24.33 KB

13 чел.

Тема 7. Системы машинного перевода

Традиционный перевод текстов, т.е. без применения средств автоматизации, многих перестает устраивать, поскольку требует больших затрат времени и, главное, знаний и навыков. Благодаря возможностям компьютера появилась возможность перевода текстов без знания языка и достаточно быстро.

На сегодняшний день существует две технологии автоматизации переводов: системы Translation Memory (TM) и машинного перевода (МП).

Принцип работы систем ТМ построен на сравнении текста, подлежащего переводу, с внутренней базой, хранящей разбитый на предложения параллельный текст на исходном языке и его перевод, полученный традиционным способом. При загрузке нового документа в ТМ-систему происходит его разделение на сегменты и сопоставление с текстами из базы. Часть этих сегментов оказывается уже переведенной ранее, и система визуализирует их как уже известные, другие — как частично совпадающие с БД, а некоторые — как требующие перевода. Таким образом, переводчику не нужно тратить усилия на то, что он уже делал прежде. Подобные системы оказываются весьма эффективными при переводе аналогичных документов, например повторяющейся технической документации: ее можно перевесь, один раз, а для последующих выпусков достаточно переводить лишь изменения в первоисточнике.

Применение ТМ эффективно при переводе технической, финансовой, юридической и другой документации, с высокой степенью повторяемости текстов (в среднем количество повторов в проекте может достигать 50%, что означает увеличение скорости перевода в полтора-два раза). Использование данных систем также целесообразно при коллективной работе, когда необходимо обеспечить согласованный перевод в рамках одного проекта. Весь перевод автоматически сохраняется в единой базе данных, доступной всем участникам процесса перевода. В режиме реального времени пользователи видят результаты перевода друг друга. При этом переводчики могут находиться в одной локальной сети или подключаться удаленно. Это особенно важно для компаний, имеющих филиалы в разных городах и даже странах.

Среди подобных систем наиболее распространенной является SDL Trados (http://www.trados.com/). Она стала своего рода промышленным стандартом письменного перевода. По независимым оценкам, 80% переводчиков во всем мире применяют решения SDL Trados. СПО альтернативой весьма дорогой системе является OmegaT (http://www.omegat.org/, http://omegat.info/), обладающая однако не столь обширными функциями.

Данные программные продукты ориентированы для профессиональных переводчиков. Специалистам по связям с общественностью и рекламе следует быть осведомленными о существовании таких ПО, однако в их каждодневной работе они вряд ли будут полезными в отличие от технологий машинного перевода (МП).

Существуют два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах (rule-based) и основанный на статистике (statistical-based).

1. «rule-based» подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ, on-line переводчик Translate.ru в России, SYSTRAN во Франции, Linguatec в Германии и др.)

PROMT (http://www.promt.ru/)- российское ПО, созданное в 1991 году. В 1992 году было изменено название на STYLUS, а в 1998 году было возвращено прежнее название. В 1993 году был создан пакет Stylus for Windows 2.0, ставший первой в мире программой перевода в среде Windows 3.1.

На сегодняшний день существует три основные сборки переводчика для домашнего использования: 4U, Standard, Professional, которые имеют по несколько версий в зависимости от комплектации (дополнительные словари, дополнительные опции). Стоимость колеблется от 720 до 18 тыс. рублей. Предложения для малого бизнеса стоят от 18 до 35 тыс. рублей. Далеко не каждая фирма сможет позволить себе подобное ПО.

PROMT Professional 9.5 (стоимость 18 тыс. руб.) позволяет быстро и качественно перевести технический документ, отраслевой сайт, деловое письмо или сообщение от партнера. Загрузив текст целиком можно получить связный перевод текста, а также полную справку по отдельным словам и словосочетаниям. Поддерживает пять направлений перевода с участием русского языка, в том числе с итальянского на русский. Документы можно переводить в среде MS Office 2000-2010 или OpenOffice Writer. Pdf-документы можно переводить как в редакторе PROMT с сохранением исходного форматирования, или в интерфейсе программ Adobe Acrobat и Adobe Professional. Грамматическая и стилистическая проверка позволяют избежать ошибок из-за опечаток. Присутствует возможность пакетного перевода. Осуществляет перевод веб - страниц в браузерах Internet Explorer, Mozilla Firefox, Opera и Google Chrome; сообщений в ICQ, Skype, QIP, Windows Live Messenger.

Технология Text-to-Speech позволяет услышать как звучит исходный текст или текст перевода. PROMT предлагает приобрести дополнительно около 180 словарей по 33 тематикам, или создать собственный пользовательский словарь.

Среди систем электронного перевода программы-переводчики PROMT получили наибольшее распространение. Они предоставляют широкие возможности по настройке на перевод текстов, подключению специализированных словарей (PROMT предлагает приобрести дополнительно около 180 словарей по 33 тематикам) или создать собственный пользовательский словарь. Текст для перевода может вводиться не только с клавиатуры или редактора, но и со сканера. При работе со сканером и наличии установленной на компьютере какой-либо системы оптического распознавания текстов (OCR) (FineReader, Cunieform или AutoR) можно запустить OCR-программу непосредственно из системы PROMT (об OCR-системах см. Тема 6.).

В 1998 году компания PROMT открывает первый российский веб-сервис, предназначенный для перевода текста или веб-страниц на другие языки Translate.ru (http://www.translate.ru/translator.asp?lang=ru). При переводе отдельного слова выдаёт словарную статью. Один из двух самых популярных онлайн-переводчиков в Рунете (второй - Google Переводчик). На сегодняшний момент поддерживается 25 направлений перевода. Кроме переводчика текстов, сервис включает в себя переводчик сайтов. Среди дополнительных возможностей сервис предлагает: автоопределение языка, виртуальную клавиатуру, проверку орфографии, ручной перевод (обращение в бюро переводов). При переводе слова пользователь дополнительно может прослушать его звучание на языке оригинала.

Недостатки сервиса: ограничение объёма переводимого текста (не более 3000 символов), при регистрации объём увеличивается до 10000 символов; ограничение размера переводимой веб-страницы (не более 500 Кб).

2. «Переводчики» использующие самообучаемый алгоритм статистического машинного перевода («statistical-based»).

К этому типу относятся сервисы переводчик Google, а также новый сервис от ABBYY.

Google Translator (http://translate.google.ru/) единственный on-line переводчик, не ограничивающий объем переводимого текста. Использует собственное программное обеспечение. Привлекает дружественный интерфейс, возможность автоматического определения языка, перевод веб-сайтов. От других аналогичных сервисов отличает скорость и функция автозаполнение, при ручном вводе текста. Имеется возможность услышать произношение текста. У сервиса есть свои особенности из-за того, что выдача вариантов контролируется статистическим алгоритмом, при переводе обычных общеупотребительных слов Google Переводчик может предлагать в числе возможных вариантов нецензурные слова. На результат выдачи также можно повлиять, массово предлагая некий, в том числе, заведомо неверный вариант перевода.

Google Переводчик предлагает перевод с любого поддерживаемого языка на любой поддерживаемый, но в большинстве случаев реально выполняет перевод через английский. Иногда качество от этого сильно страдает.

Компания Abbyy предлагает пользователям сервис «TextGrabber + Translater» (http://www.abbyy.ru/textgrabber_translator/). Принцип работы предполагает слудующее: пользователю достаточно запустить приложение, сфотографировать текст, который необходимо перевести, нажать кнопку «распознать», потом текст можно отредактировать и перевести на один из 40 доступных языков. Помимо полнотекстового перевода в программе доступен пословный перевод, при наличии на устройстве установленного словаря.

В повседневной работе могут весьма полезны словари.

Среди отечественных электронных словарей выделяется мощный профессиональный словарь ABBYY Lingvo х5 (http://www.lingvo.ru/). Нажатие «горячей клавиши» в любом Windows-приложении за считанные секунды выведет на экран информацию, отобранную для перевода слова (фразы) из всех словарей, подключённых к системе. Lingvo является хорошим средством для оперативной помощи при переводе, когда надо быстро просмотреть варианты перевода слова.

Грамматические комментарии на любое слово, озвучивание наиболее употребляемых слов, проверка правильности написания, возможность создания собственных словарей — вот перечень основных возможностей Lingvo, используемых не только при переводе текста, но и при изучении иностранного языка.

В сети доступно большое количество on-line словарей.

Мультитран (http://www.multitran.ru/) в настоящее время это один из наиболее полных и самых популярных автоматических онлайновых словарей Рунета. Помимо интернет-версии, распространяется оффлайн-версия «Мультитрана».

Dicto (http://dicto.org.ru/) электронный словарь, обладает полным набором свойств, свойственных качественным комплексным средствам перевода, в том числе возможностью использования глобальных горячих клавиш для перевода из внешних приложений и высокой скоростью работы. Работа над проектом приостановлена с 2009 года.

Вопросы по теме:

1. В чем заключается различие технологий Translation Memory и машинного перевода?

2. Назовите наиболее распространенные программные продукты, чья работа строится на основании «rule-based» подхода?

3. В чем заключается недостаток статистического («statistical-based») алгоритма машинного перевода?


 

А также другие работы, которые могут Вас заинтересовать

53421. Современный урок с позиции интерактивного обучения 88.5 KB
  Во время интерактивного обучения учащиеся учатся быть демократичными общаться с другими критически мыслить принимать продуманные решения. Обсуждение вопросов будет проходить путём коллективного обдумывания мозгового штурма которые проводится так: 1 условие задания записывается на доске чтобы видно было всем; 2 все участники штурма имеют право высказать свои идеи для решения задания; 3 когда участники группы выясняют что идей достаточно их предложение останавливается; 4 поданные идеи анализируются обговариваются в группах;...
53422. Важливість упровадження в навчальний процес інтерактивних технологій як одного із засобів особистісно-зорієнтованого навчання 43 KB
  Сучасна школа стоїть перед прикрим фактом: в умовах традиційних форм та методів навчання школярі пасивно отримуючи інформацію не вміють здобувати її самостійно і застосовувати те що знають. Особистіснозорієнтоване навчання у цьому плані є досить перспективним оскільки воно виходить із самоцінності особистості її духовності та суверенності. Визначальним для особистіснозорієнтованого навчання має бути соціокультурний діалог у системі â€œпедагог дитина†на основі її розуміння прийняття і визнання.
53423. Зимова подорож до святого Миколая. Виготовлення листівки бажань 41.5 KB
  Зимова подорож до святого Миколая. Мета: розширити знання учнів про святого Миколая; вчити учнів правильно виразно читати поетичні твори; збагачувати словниковий запас учнів; виготовити листівку бажань; сприяти вихованню міцної внутрішньої опори людини що знаходить свій прояв у доброті чуйності лагідності. Сьогодні на уроці ми завітаємо у гості до святого Миколая. Я знаю що день святого Миколая улюблене свято українських дітей.
53424. Інтегроване заняття з використанням наочного моделювання 31 KB
  На основі знайомої казки Колосок за допомогою схемсимволів вчити дітей сприймати зміст казки. Хіба зможемо прожити ми без них Діти вам подобаються казки Що вам подобається в казках Так всі люблять казки кони ведуть нас у світ пригод вчать розпізнавати добро зло. 1 коробка Діти підійдіть до коробки з літерою А в коробці захована схема з гудзиків за казкою Колосок З якої казки герої Який був півник Якими були мишенята Як звали Півника мишенят Чому вчить ця казочка Хто не працює той не їсть Потрібно...
53425. Формування ключових компетентностей молодшого школяра шляхом впровадження інтегрованих уроків 299 KB
  Предметних компетентностей: ознайомити дітей з усіма варіантами числа 7; вчити учнів складати розвязувати читати вирази на додавання в межах 7; вивчити назви днів тижня; розвивати мислення память; розширити знання про фрукти їх користь для людей; збагатити словниковий запас поняттями екзотика екзотичні фрукти; виховувати бережливе ставлення до природи зокрема садупрагнення до здорового харчування. Обладнання: мультимедійний проектор компютер аудіозаписи мікрофон демонстраційний матеріалкартки із...
53426. Закріплення вивчених букв. Робота з дитячою книгою. Українська народна казка «Курочка Ряба». Виготовлення курочки з солоного тіста 209 KB
  Мета Формувати у дітей поняття про казку як художній твір,Розвивати навички слухання та інтонування почутого, мовлення, уяву, фантазію, логічне раціональне мислення, використовуючи методи інтерактивного навчання; закріплювати вміння читати слова, речення та тексти з вивченими буквами, вдосконалювати навички звукового аналізу слів;
53427. Таблицы сложения и вычитания числа 9. Периметр четырехугольника. Изготовление кораблика способом оригами 180.5 KB
  Трудовое обучение: продолжать знакомить учеников с оригами как видом искусства; учить изготавливать кораблик способом складывания и перегибания бумаги; развивать внимание усидчивость умение работать по технологической карте; воспитывать усидчивость старательность. Как называется эта геометрическая фигура четырехугольник Работа по таблице четырехугольники.
53428. Весна прийшла. Вірш Л.Українки «Вишеньки». Виготовлення сувеніру для мами 76.5 KB
  Мета: вчити учнів виготовляти сувеніри і розвивати вміння самостійно добирати розмір колір матеріал працювати з поролоном і картоном; формувати емоційно-позитивне ставлення до художнього образу вишні; поглибити кявлення про народні звичаї та повіря; розвивати звязне мовлення творчість мислення естетичний смак; виховувати любов до мами почуття вдячності і шанобливе ставлення повагу гордість за рідну матусю бажання...
53429. Життя в добрі 3.65 MB
  Так би і померла та людина, аби тою дорогою не проїздив самарянин. Треба відмітити, що євреї не любили самарян. Вони не розмовляли з самарянами і навіть не пускали їх у свій храм для поклоніння Богу. Але коли самарянин побачив пораненого єврея, то не став згадувати про це.