唐诗英译,人和 AI 谁更强?

【文军、康雨桐、孙三军. (2026). "Two audiences, two standards: Evaluating human vs. LLM poetry translation through bilingual and monolingual lenses." Humanities and Social Sciences Communications. https://doi.org/10.1057/s41599-026-07621-1】

[该文外审了5轮，外审专家共5人，修改了5轮。前后近2年时间。感谢外审专家的意见。]

论文看点如下：

1. 研究设计

我们选取6首唐诗，每首诗各有5个英译本（4位知名人类译者 + 1个ChatGPT-4译本），请19位中国大学英语/翻译教师和19位英美人士（至少本科毕业）对匿名译文的质量进行评分、排序并陈述理由。

选诗：李白《静夜思》、孟浩然《宿建德江》、金昌绪《春怨》、杜秋娘《金缕衣》、王昌龄《闺怨》、王维《竹里馆》，都是意象集中、情感普世的绝句。
选译本：从 19 世纪的翟理斯（Giles）、20 世纪的宾纳（Bynner），到徐忠杰、许渊冲，再到 2024 年的 GPT-4。
关于那个 AI 译本：GPT-4 的每一次翻译，都喂了约 2000 字的中文背景与解读（历史语境、文化典故、逐句释义），让它尽可能接近一位"读过功课"的人类译者。译文取首次生成、未经人工润色的版本。
怎么评：每个译本 1—5 分评分 + 排序 + 开放式说明理由；再用 Mann-Whitney、Friedman、Nemenyi 等检验确认差异是否可靠。

2. 研究发现

国内大学教师最喜欢许渊冲先生的译文，英美人士则最喜欢GPT-4的译文。许渊冲在英美读者那里仍排第 2，GPT-4 在国内教师那里也排第 2。两组存在显著差异。

3. 核心观点

该论文的核心观点可以概括为：Two audiences, two standards。同一篇译文，在懂中文、能对照原文的读者那里，和在不懂中文、只能阅读英文译文的读者那里，可能会被完全不同的标准评价。

借用接受美学中“期待视野”（horizon of expectations）的概念：

懂中文、能看原文的读者，视野是互文的——原诗始终是参照系，于是要求“全方位的忠实”；
不懂中文、只读译文的读者，视野是文本内的——只能拿目标语的诗歌标准来衡量，于是看重流畅、清晰与感染力。

4. 人和 AI 到底谁更强？

答案是：它本就不是一道“谁胜谁负”的题。

更要紧的问题是：这篇译文，是给谁看的？

如果面向双语读者，译文要经得起与原文的反复对照，“忠实”是绕不过去的门槛；
如果面向目标语普通读者，流畅、清晰与情感效果，往往才是决定接受度的关键。

而 AI 在其中也并非一个有自主翻译哲学的“译者”，更像一件听命于提示语的工具：你让它偏忠实，它就偏忠实；你让它偏流畅，它就偏流畅。它在英美读者那里的胜出，胜在它把“流畅、清晰、有感染力”这几项做到了位——而这几项，恰好是那群读者最在意的。

5. 结语

翻译质量，从来不是一个脱离读者的绝对概念。

在 AI 介入文学翻译的今天，对译文好坏的评判，或许该从追问“哪个译本最好"，转向一组更精细的判断：

读者画像 × 使用场景 × 评价维度

同一篇译文，在懂原文的人和只读译文的人那里，本就可能被两套完全不同的标准衡量。看清这一点，比急着宣布“人赢了”还是“AI 赢了”，重要得多。