Услуги

Наши услуги

Наши решения на базе машинного перевода (МП) для корпоративных клиентов масштабируются от внедрения МП «под ключ» на инфраструктуре заказчика с обучением специалистов заказчика до интеграции отдела переводов предприятия со сторонними сервисами МП, а также полного аутсорсинга услуг перевода на базе МП.

Выбор поставщиков МП

Мы помогаем выбрать поставщика МП в зависимости от языков, с которых и на которые производится перевод, типа переводимого контента (техдокументация, софт, договора, переписка и т. п.), требований по качеству перевода и многих других параметров, от которых существенно зависит качество МП.

Обучение системы МП

Разница в качестве между общедоступными и специально обученными системами МП огромна. Однако правильное обучение МП – нетривиальная задача и недешевая услуга. Наша учебная платформа позволяет настроить процесс обучения и оценить результаты с минимальными затратами еще до запуска системы в работу.

Учебные корпуса текстов

Для обучения МП нужны «учебные корпуса» по заданной тематике - наборы двуязычных текстов, где предложения на исходном языке сопоставлены с предложениями на языке перевода. Если корпуса общей лексики типа новостей свободно доступны, то узкотематические корпуса нужного размера – дефицитный и дорогой ресурс.

  • Память переводов. У отдела переводов предприятия обычно уже есть массивы памяти переводов, которые можно использовать как учебные корпуса после «очистки». Память переводов, которая используется в любой современной системе автоматизации труда переводчиков (CAT-системе), нельзя «скормить» системе МП для обучения – сначала нужно найти и удалить неправильные переводы, непереведенные фрагменты, гипертекстовую разметку и так далее. Очистка памяти переводов – самостоятельная нетривиальная задача.
  • Выравнивание текстов. Если памяти переводов нет или она маленькая, мы используем технологию сопоставления произвольных текстов заданной тематики на разных языках для создания памяти переводов на основе материалов заказчика или источников в Интернете. В отличие от трудоемких и медленных технологий сопоставления (выравнивания) текстов предыдущего поколения, наше решение на основе недавних достижений AI работает полностью автоматически, очень быстро и практически со 100% точностью.

Обучение системы МП

Возможны три сценария обучения и использования МП на практике. Оптимальный выбор между ними требует консультации специалистов и изучения конкретной ситуации у заказчика.

  • Стоковая» система. Арендуется в ЦОД поставщика услуг МП, уже обучена, но лишь на общей лексике. Качество перевода соответствует общедоступным переводчикам в Интернете, то есть для определенных видов контента заведомо неприемлемое.
  • Тематически адаптированная система общего назначения. Это стоковая система, которая арендуется у поставщика МП или покупается и развертывается у заказчика. Изначально обучена на общей лексике большого объема. Затем дополнительно обучается на узкотематическом корпусе, обычно предоставляемом заказчиком. Критически важен размер второго корпуса – это передний край научных исследований.
  • Расширенная узкотематическая система. В отличие от тематически адаптированной системы общего назначения, изначально обучается на сравнительно маленьком узкотематическом корпусе. В этом случае система хорошо «запоминает» специальные термины, но текст выдает корявый. Поэтому систему дообучают на корпусе-«расширении» с более общей лексикой. Это наиболее сложный и тонкий вариант обучения МП, обеспечивающий высокое качество, но требующий участия специалистов.

Оценка результатов обучения

Для оценки эффективности обучения и затем повседневной работы системы МП используются метрики, сравнивающие машинный перевод с эталоном. В качестве эталона может выступать независимо выполненный человеком перевод того же самого текста, либо отредактированный человеком исходный машинный перевод.

  • Метрики качества МП. Чаще всего используются метрики BLEU, hLepor, TER. Для расчета таких метрик нужны специальные средства, а для интерпретации результатов – опыт применения этих метрик на практике.
  • Что показывает метрика? Например, известно, что BLEU = 20 – это плохо, а 70 – почти недостижимый идеал. А на какие значения ориентироваться в реальной жизни? 40, 50, 60? Кроме того, метрик BLEU - множество разных, потому что каждый поставщик или исследователь может по-своему настраивать параметры этой метрики, а опубликованный алгоритм одной из метрик hLepor содержал ошибки.
  • Особенности оценки результатов обучения. Для оценки качества системы МП после обучения нужен специальный тестовый корпус. Обычно его делают путем механического расщепления учебного корпуса на две части в соотношении 9:1. Однако опыт показал, что в случае механического или случайного отбора оценка качества существенно искажается в сторону завышения. Мы применяем специальный алгоритм расщепления на основе новейших разработок в области AI, обеспечивающий наиболее объективную оценку качества МП.

Преимущества

Перевод того, что нельзя перевести вручную

МП позволяет распространить перевод на те области корпоративного обмена информацией, где раньше ручной перевод не мог применяться вообще из-за ограничений по затратам времени и стоимости: пользовательский контент, чаты техподдержки, маркетинговые исследования, внутренняя переписка в глобальной компании и т. п.

Снижение затрат на локализацию товаров и услуг

МП позволяет существенно экономить на традиционных задачах локализации техдокументации, софта и отчасти – маркетинговых материалов. МП предыдущего поколения (статистический) позволил в среднем снизить затраты на перевод на 30% (если перевод стоил 1, то постредактура МП стоит уже 0,7, иногда 0,6). Переход на системы нейронного МП реально обеспечивает снижение себестоимости до уровня 0,5 и даже ниже. Однако такая экономия требует тщательной подготовки и правильной настройки системы МП и адаптации рабочих процессов перевода.

Ускорение перевода

Безусловное преимущество МП – заметное ускорение процессов перевода. В зависимости от разных параметров скорость работы переводчика возрастает в 1,5–2а, иногда – в 3 раза. Все зависит от языков, типа контента, способа обучения системы и других обстоятельств, для учета которых требуется опыт работы с МП.

Развертывание

Развертывание системы МП на предприятии включает принятие решений о хостинге системы, обучении сотрудников работе с системой и ее администрированию, стыковке системы с ИТ-средой предприятия для обмена информацией, интеграции с CAT-системами переводчиков, подготовке данных для обучения МП.

2

Хостинг системы МП

В сети предприятия или в ЦОД поставщика. Второй вариант может потребовать принятия специальных мер по обеспечению конфиденциальности обрабатываемой информации.

3

Управление системой МП

Для управления развернутой системой МП потребуется обучение ответственных за это сотрудников, либо аутсорсинг этой функции посредством удаленного управления системой.

4

Интеграция МП с ИТ-инфраструктурой предприятия

Для экономии затрат при повседневном использовании системы МП желательно состыковать систему МП и CMS-систему предприятия. Поскольку у разных поставщиков МП интерфейс API реализован по-разному, может потребоваться консультация специалиста.

5

Интеграция МП с рабочей средой переводчиков

CAT-системы отличаются по возможностям интеграции со сторонними системами МП, может потребоваться консультация специалиста. Мы предлагаем специализированное решение Memose по оптимизации постредактирования МП. Оно дополняет существующие CAT-системы и реализует новую концепцию работы с МП. При этом существенно повышается качество конечного перевода и улучшается субъективное восприятие МП переводчиком.

6

Подготовке данных для обучения МП

Мы оказываем услуги по комплексной очистке накопленных массивов памяти переводов (ТМ) для обучения системы МП. В расширенном варианте мы предлагаем миграцию существующих ТМ на наш сервер памяти переводов Memose. Сервер основан на новой концепции хранения памяти переводов и сверхбыстрой базе данных и оптимизирован для процессов перевода с использованием МП.

7

Генерация данных для обучения МП

Для обучения МП в различных вариантах требуется корпус двуязычных текстов размером от 50 000 пар предложений и более. Если существующие массивы памяти переводов не дают нужный объем данных, мы предлагаем наше решение [Paralela] по выравниванию (сопоставлению) текстов на разных языках на основе новейших технологий AI. Для получения двуязычных выровненных массивов, аналогичных памяти переводов, можно использовать имеющиеся на предприятии документы на разных языках, материалы с сайта предприятия, иные доступные тексты и веб-сайты. Выравнивание производится автоматически и очень точно.

Обслуживание

После обучения и ввода в эксплуатацию система МП требует периодического обслуживания: дообучения, контроля качества, измерения производительности постредакторов. Также необходимо периодически сравнивать выбранную систему с другими – прогресс не стоит на месте, разные системы МП совершенствуются неравномерно (и иногда деградируют).

Проверка на предыдущих корпусах, чтобы не «переобучить» модель

После дообучения системы на новой тематике необходимо выполнить не одну, а две проверки качества.

  • Проверка на новой тематике. Нужно использовать новый тестовый корпус, чтобы убедиться, что система стала лучше переводить новую тематику.
  • Регрессивная проверка на старой тематике. Система проверяется на тестовом корпусе для основной тематики: нужно убедиться, что система не стала хуже переводить основную тематику.

Контроль производительности переводчиков

Для оценки эффективности и себестоимости МП можно измерять затраты времени постредакторов на правку сырого МП. Оптимальным является вариант, когда CAT-система позволяет измерять это время. Альтернативой служит выборочное измерение производительности постредакторов. Чтобы получить достоверную оценку, необходимо обеспечить ряд условий, известных специалистам по статистике. Измеренная средняя выработка постредактора также необходима для планирования задач по переводу.

Советы и хитрости

Внедрение и последующая эксплуатация систем МП изобилуют «подводными камнями». Ниже перечислены типичные вопросы, которые неизбежно возникают на этом пути.

  • Почему на рынке столько разных систем МП, как выбрать «лучшую», по каким критериям выбирать?
  • Собрать систему МП из свободно доступных компонентов самостоятельно можно, но каких знаний это потребует?
  • Каков должен быть объем учебного корпуса?
  • Что делать, если мало текстов по нужной тематике для наполнения учебного корпуса?
  • Какие операции включает «очистка» учебного корпуса и почему нет универсальных методов очистки «на все случаи жизни»?
  • Каковы риски при машинном переводе конфиденциальных материалов и почему анонимизация текста оказалась сложной задачей?
  • Почему так много ручного труда при сопоставлении исходных и переведенных документов, ведь соответствующие программы выравнивания развиваются уже много лет?
  • Можно ли бесконечно повторять циклы обучения МП?
  • Как понять, есть толк от обучения системы или нет – какие трудности возникают при измерении качества МП?
  • Как заставить «машинку» следовать корпоративному глоссарию?
  • Почему так много ручного труда при извлечении терминологии для создания глоссариев и какие здесь появились решения?
  • Почему нельзя подобрать себе систему МП раз и навсегда – что происходит у ученых и разработчиков?
  • Правда ли, что МП достиг уровня “human parity”? Нейронный МП выдает «гладкий», практически «человеческий» текст – в чем подвох?
  • МП сам по себе дешевый, а его обучение дорогое – как не разориться «на картриджах»?

Мы готовы помочь вам получить ответы на эти вопросы и успешно внедрить МП на предприятии – закажите бесплатную демонстрацию и консультацию по внедрению МП

Узнать подробнее о «горячих точках» в исследованиях и применении AI можно в нашем блоге