Наши решения на базе машинного перевода (МП) для корпоративных клиентов масштабируются от внедрения МП «под ключ» на инфраструктуре заказчика с обучением специалистов заказчика до интеграции отдела переводов предприятия со сторонними сервисами МП, а также полного аутсорсинга услуг перевода на базе МП.
Мы помогаем выбрать поставщика МП в зависимости от языков, с которых и на которые производится перевод, типа переводимого контента (техдокументация, софт, договора, переписка и т. п.), требований по качеству перевода и многих других параметров, от которых существенно зависит качество МП.
Разница в качестве между общедоступными и специально обученными системами МП огромна. Однако правильное обучение МП – нетривиальная задача и недешевая услуга. Наша учебная платформа позволяет настроить процесс обучения и оценить результаты с минимальными затратами еще до запуска системы в работу.
Для обучения МП нужны «учебные корпуса» по заданной тематике - наборы двуязычных текстов, где предложения на исходном языке сопоставлены с предложениями на языке перевода. Если корпуса общей лексики типа новостей свободно доступны, то узкотематические корпуса нужного размера – дефицитный и дорогой ресурс.
Возможны три сценария обучения и использования МП на практике. Оптимальный выбор между ними требует консультации специалистов и изучения конкретной ситуации у заказчика.
Для оценки эффективности обучения и затем повседневной работы системы МП используются метрики, сравнивающие машинный перевод с эталоном. В качестве эталона может выступать независимо выполненный человеком перевод того же самого текста, либо отредактированный человеком исходный машинный перевод.
МП позволяет распространить перевод на те области корпоративного обмена информацией, где раньше ручной перевод не мог применяться вообще из-за ограничений по затратам времени и стоимости: пользовательский контент, чаты техподдержки, маркетинговые исследования, внутренняя переписка в глобальной компании и т. п.
МП позволяет существенно экономить на традиционных задачах локализации техдокументации, софта и отчасти – маркетинговых материалов. МП предыдущего поколения (статистический) позволил в среднем снизить затраты на перевод на 30% (если перевод стоил 1, то постредактура МП стоит уже 0,7, иногда 0,6). Переход на системы нейронного МП реально обеспечивает снижение себестоимости до уровня 0,5 и даже ниже. Однако такая экономия требует тщательной подготовки и правильной настройки системы МП и адаптации рабочих процессов перевода.
Безусловное преимущество МП – заметное ускорение процессов перевода. В зависимости от разных параметров скорость работы переводчика возрастает в 1,5–2а, иногда – в 3 раза. Все зависит от языков, типа контента, способа обучения системы и других обстоятельств, для учета которых требуется опыт работы с МП.
Развертывание системы МП на предприятии включает принятие решений о хостинге системы, обучении сотрудников работе с системой и ее администрированию, стыковке системы с ИТ-средой предприятия для обмена информацией, интеграции с CAT-системами переводчиков, подготовке данных для обучения МП.
В сети предприятия или в ЦОД поставщика. Второй вариант может потребовать принятия специальных мер по обеспечению конфиденциальности обрабатываемой информации.
Для управления развернутой системой МП потребуется обучение ответственных за это сотрудников, либо аутсорсинг этой функции посредством удаленного управления системой.
Для экономии затрат при повседневном использовании системы МП желательно состыковать систему МП и CMS-систему предприятия. Поскольку у разных поставщиков МП интерфейс API реализован по-разному, может потребоваться консультация специалиста.
CAT-системы отличаются по возможностям интеграции со сторонними системами МП, может потребоваться консультация специалиста. Мы предлагаем специализированное решение Memose по оптимизации постредактирования МП. Оно дополняет существующие CAT-системы и реализует новую концепцию работы с МП. При этом существенно повышается качество конечного перевода и улучшается субъективное восприятие МП переводчиком.
Мы оказываем услуги по комплексной очистке накопленных массивов памяти переводов (ТМ) для обучения системы МП. В расширенном варианте мы предлагаем миграцию существующих ТМ на наш сервер памяти переводов Memose. Сервер основан на новой концепции хранения памяти переводов и сверхбыстрой базе данных и оптимизирован для процессов перевода с использованием МП.
Для обучения МП в различных вариантах требуется корпус двуязычных текстов размером от 50 000 пар предложений и более. Если существующие массивы памяти переводов не дают нужный объем данных, мы предлагаем наше решение [Paralela] по выравниванию (сопоставлению) текстов на разных языках на основе новейших технологий AI. Для получения двуязычных выровненных массивов, аналогичных памяти переводов, можно использовать имеющиеся на предприятии документы на разных языках, материалы с сайта предприятия, иные доступные тексты и веб-сайты. Выравнивание производится автоматически и очень точно.
После обучения и ввода в эксплуатацию система МП требует периодического обслуживания: дообучения, контроля качества, измерения производительности постредакторов. Также необходимо периодически сравнивать выбранную систему с другими – прогресс не стоит на месте, разные системы МП совершенствуются неравномерно (и иногда деградируют).
После дообучения системы на новой тематике необходимо выполнить не одну, а две проверки качества.
Для оценки эффективности и себестоимости МП можно измерять затраты времени постредакторов на правку сырого МП. Оптимальным является вариант, когда CAT-система позволяет измерять это время. Альтернативой служит выборочное измерение производительности постредакторов. Чтобы получить достоверную оценку, необходимо обеспечить ряд условий, известных специалистам по статистике. Измеренная средняя выработка постредактора также необходима для планирования задач по переводу.
Внедрение и последующая эксплуатация систем МП изобилуют «подводными камнями». Ниже перечислены типичные вопросы, которые неизбежно возникают на этом пути.