【文军、康雨桐、孙三军. (2026). "Two audiences, two standards: Evaluating human vs. LLM poetry translation through bilingual and monolingual lenses." Humanities and Social Sciences Communications. https://doi.org/10.1057/s41599-026-07621-1】

[该文外审了5轮,外审专家共5人,修改了5轮。前后近2年时间。感谢外审专家的意见。]

论文看点如下:
1. 研究设计
我们选取6首唐诗,每首诗各有5个英译本(4位知名人类译者 + 1个ChatGPT-4译本),请19位中国大学英语/翻译教师和19位英美人士(至少本科毕业)对匿名译文的质量进行评分、排序并陈述理由。
选诗:李白《静夜思》、孟浩然《宿建德江》、金昌绪《春怨》、杜秋娘《金缕衣》、王昌龄《闺怨》、王维《竹里馆》,都是意象集中、情感普世的绝句。
选译本:从 19 世纪的翟理斯(Giles)、20 世纪的宾纳(Bynner),到徐忠杰、许渊冲,再到 2024 年的 GPT-4。
关于那个 AI 译本:GPT-4 的每一次翻译,都喂了约 2000 字的中文背景与解读(历史语境、文化典故、逐句释义),让它尽可能接近一位"读过功课"的人类译者。译文取首次生成、未经人工润色的版本。
怎么评:每个译本 1—5 分评分 + 排序 + 开放式说明理由;再用 Mann-Whitney、Friedman、Nemenyi 等检验确认差异是否可靠。
2. 研究发现
国内大学教师最喜欢许渊冲先生的译文,英美人士则最喜欢GPT-4的译文。许渊冲在英美读者那里仍排第 2,GPT-4 在国内教师那里也排第 2。两组存在显著差异。
3. 核心观点
该论文的核心观点可以概括为:Two audiences, two standards。同一篇译文,在懂中文、能对照原文的读者那里,和在不懂中文、只能阅读英文译文的读者那里,可能会被完全不同的标准评价。
借用接受美学中“期待视野”(horizon of expectations)的概念:
懂中文、能看原文的读者,视野是互文的——原诗始终是参照系,于是要求“全方位的忠实”;
不懂中文、只读译文的读者,视野是文本内的——只能拿目标语的诗歌标准来衡量,于是看重流畅、清晰与感染力。
4. 人和 AI 到底谁更强?
答案是:它本就不是一道“谁胜谁负”的题。
更要紧的问题是:这篇译文,是给谁看的?
如果面向双语读者,译文要经得起与原文的反复对照,“忠实”是绕不过去的门槛;
如果面向目标语普通读者,流畅、清晰与情感效果,往往才是决定接受度的关键。
而 AI 在其中也并非一个有自主翻译哲学的“译者”,更像一件听命于提示语的工具:你让它偏忠实,它就偏忠实;你让它偏流畅,它就偏流畅。它在英美读者那里的胜出,胜在它把“流畅、清晰、有感染力”这几项做到了位——而这几项,恰好是那群读者最在意的。
5. 结语
翻译质量,从来不是一个脱离读者的绝对概念。
在 AI 介入文学翻译的今天,对译文好坏的评判,或许该从追问“哪个译本最好",转向一组更精细的判断:
读者画像 × 使用场景 × 评价维度
同一篇译文,在懂原文的人和只读译文的人那里,本就可能被两套完全不同的标准衡量。看清这一点,比急着宣布“人赢了”还是“AI 赢了”,重要得多。
夜雨聆风