«Физики и лирики отдыхают»
Павел Браславский, старший научный сотрудник Института математики и компьютерных наук УрФУ, руководитель Kontur Labs
14 марта 2013
размер текста: aaa
В России запущен проект по сравнительной оценке систем машинного перевода. Он работает в рамках семинара РОМИП (Российский семинар по оценке методов информационного поиска).
Павел Браславский:
На семинаре РОМИП тестируются все российские программы-переводчики и несколько общедоступных онлайновых переводчиков. Один из самых занимательных моментов в этом проекте — дискуссия представителей разных подходов к машинному переводу: тех, кто использует грамматические правила, и тех, кто основывается на статистике. На фоне споров между матлингвистами физики и лирики отдыхают.
Лингвисты, работающие с правилами, проводят синтаксический анализ, составляют шаблон предложений. Они используют специальные словари, моделируют смысл и на основе этого генерируют вариант перевода. Им лучше всех удается справляться с узкоспециализированными текстами. Но при переводе материалов для массовых пользователей они уступают математикам, которые с гораздо большей скоростью при помощи статистики решают такие задачи. Статистика базируется на анализе огромных массивов текстов-оригиналов и их переводов на другие языки: на переводимое слово накладывается сразу несколько разных вариантов из базы — таким образом подбирается нужное значение.
Российское тестирование закончится в апреле. Пока нельзя сказать, кто круче себя показал из представителей этих двух направлений. Но есть факт интереснее: уже сейчас очевидно, что лучшие характеристики у онлайн-переводчиков типа Google Translate, Promt, Bling. Разработчики этих систем сформировали новую тенденцию в машинном переводе — примирили правила и статистику, создав гибридные программы. Вероятно, скоро они научатся интерпретировать текст любой сложности практически как первоклассный переводчик-человек.
Записала Алена Лесняк