Метрики, основанные на эмбеддингах, не отражают качества перевода — и это очень далеко идущий факт

В предыдущей статье мы рассказывали об исследовании специалистов Google Research под названием «Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation«, в котором была предложена новая метрика измерения качества машинного перевода, основанная на MQM, под названием pSQM.

Если говорить очень кратко, то pSQM — это целостная метрика качества перевода на уровне предложения, в которой профессиональный лингвист оценивает качество перевода одного предложения целиком, без детального анализа отдельных ошибок, по шкале от 0 до 6. Градации шкалы четко определены и это позволяет лингвистам довольно единообразно поставить оценку качества перевода. Оценка эта выглядит менее детальной, чем аналитическая метрика MQM, в которой лингвист анализирует отдельные ошибки и относит их к категориям, присваивая веса «серьезности ошибки». Однако она отлично коррелирует с полномасштабной аналитической оценкой MQM на уровне источника (переводчика или движка МП) и хорошо — на уровне сегментов.

Всего оценки были проставлены по выборке 1500 предложений, так что результат надежен и репрезентатитивен.

Дополнительно к проведенным в статье исследованиям мы провели еще один расчет — взяв корпус предложений, на котором делалось исследование (и который опубликован в общедоступный доступ вместе с самой статьей) мы построили для всех пар этого корпуса коэффициент векторной близости при помощи многоязыковой модели LABSE.

Ниже показаны две гистограммы распределения оценок качества перевода по этому корпусу по паре EN-DE, на первом рисунке оценка pSQM, на втором — векторная близость LABSE:

 

Верхняя гистограмма — распределение оценок переводов лингвистами по метрике pSQM — по семибалльной шкале от 0 до 6, отнормированные на интервал от 0 до 1. Это довольно типичное распределение цельной (holistic) оценки с медианой в районе 0.75. При этом лигвисты заметили довольно много хуже, плозо и даже  совсем плохо переведенных предложений.

Нижняя гистограмма построена нами на данных этого эксперимента путем сравнения векторной близости жталонных переводов и выдачи движков MT.

Их сравнения этих двух гистограмм видно, что предложения, близкие с точки зрения BERT (по рядом стоящим словам и их сочетаниям) не являются близкими по смыслу с точки зрения человека, который анализирует смысл предложений. По сути, близость BERT, которая очень «кучна» и находится в среднем в районе 0.8, говорит только о том, что выдача МП и финальный человеческий перевод лексически близки, но ничего не говорит о качестве перевода, который определяется точностью передачи смысла и читабельностью изложения.

И дело даже не в том, что основанная на эмбеддингах метрика завышает «качество» выдачи МП, а в том, что форма этого распределения совершенно не совпадает с тем, что оценил человек.

Качество снова ускользает от автоматических метрик, даже тех, которые основаны на самых передовых нейромоделях.

По сути эти графики — яркая иллюстрация того факта, что эмбеддинги улавливают следы смысла и словоупотребление, но не сам смысл, который они анализировать и обработать не могут.

Это и есть та причина, по которой они не отражают качества перевода.

О чем говорят эти два графика? Они наглядно говорят о том, что если результат машинного перевода ВЫГЛЯДИТ гладким и «в целом понятен», то это совершенно не значит, что он является точным и не содержит ошибок, а доказывает, что внешняя гладкость машинного перевода обманчива и скрывает неверную передачу смысла, многочисленные огрехи, что «хороший машинный перевод» — это мираж, за которым скрывается необходимость работы переводчика и редактора по всему тексту.

Это еще результаты эксперимента, в котором проверяющие не анализировали материал в контексте, а работали как машинный перевод, с единичными разрозненными и перемешанными предложениями. В контексте оценка качества была бы еще намного хуже.