Компания Logrus Global запустила сервис Paralela — «умное» средство выравнивания текстов на разных языках в составе облака инструментов для переводчиков Logrus Global Localization Cloud

В сегодняшнем «цифровом» мире ключевую роль играют данные. В области технического перевода качественные двуязычные корпуса данных нужны для обучения переводческих моделей, используемых в нейронных системах машинного перевода. Одновременно эти наборы данных служат базами знаний по отдельным узким тематикам. До недавних пор эти знания «добывались» из массивов переводов высокого качества, выполненных профессиональными переводчиками. Сейчас появилась возможность получать аналогичные данные также из тематических публикаций в Интернете на разных языках.

Поиск двуязычных текстов по узкой тематике часто осложняется тем, что эти промежуточные тексты либо утрачены, либо не являются финальными версиями. Выровнять имеющиеся исходные тексты и их переводы вручную или с использованием существующих полуавтоматических средств — слишком долго и дорого. В результате ценная для переводчиков информация и источник экономии средств на переводе для его заказчиков не используется.

Сервис Paralela построен на базе новейших моделей «искусственного интеллекта» для выравнивания предложений в исходных текстах и их переводах. Можно комбинировать любые два языка из 110 поддерживаемых языков. Обрабатываемые тексты могут быть неструктурированными и неупорядоченными потоками контента, включая документы, сопоставимые лишь очень приблизительно. Алгоритм выравнивания почти магически улавливает лингвистическое сходство между предложениями на разных языках, причем с высокой, недостижимой ранее точностью. В результате автоматически, без использования ручного труда по сопоставлению предложений можно получить результат, который раньше стоил бы больших усилий. Теперь можно быстро получать качественные двуязычные корпуса данных из исходных неструктурированных документов.

Сервис Paralela может извлекать данные из Интернета по адресам URL или обрабатывать документы формата Microsoft Word (DOCX). На выходе получается файл стандартного формата TMX — файл двуязычной памяти переводов. Эти данные можно затем использовать для перевода текстов, извлечения отраслевой терминологии, а главное — тренировки систем машинного перевода для узкой тематики.

Техническим писателям сервис Paralela поможет дополнить корпоративные репозитории контента двуязычными данными, полученными из текстов на разных языках.

Сервис полностью функционален и уже используется в самой компании Logrus Global. Для других пользователей сервис доступен в тестовом режиме в виде бета-версии с технической поддержкой со стороны разработчиков, которые продолжают развивать функционал предварительной и окончательной обработки данных.

Сервис доступен по ссылке: http://paralela.logrusglobal.com/index.php

Компания Logrus Global

Logrus Global — это дружная команда профессионалов перевода, локализации и глобализации, работающая на международном рынке уже более 26 лет.