本文速览 | 预计阅读 7 分钟
做一个AI翻译评分系统,最核心的问题是「用什么标准打分」。试了四个框架
MQM是给企业用的,颗粒度太粗,学生拿到反馈没法行动 CATTI什么都没公开,三个级别的标准只有「忠实」「通顺」四个字 NAATI公开了但用的是描述性量表,不告诉你犯了什么类型的错 ATA把翻译质量拆成三层框架,17种错误类型全部公开,目标语规范和写作质量两个板块逐个拆解,意义传递的11种错误下篇再聊
最近在做一个笔译自主练习AI评分反馈系统,给学习者练手用的。

你翻一篇译文丢进去,它给你打个分、标出哪里有问题、问题属于什么类型。

听起来不难对吧。(想看软件效果,直接拉到本文最后)
做着做着我就卡在了一个地方,也是整个系统最核心的问题,用什么标准来评分?
不是那种「好、中、差」的粗放打分。是那种,你的译文到底犯了什么类型的错误,每种错误扣多少分,颗粒度要细到学生拿到反馈之后知道该往哪个方向练。
这个问题把我卡了好一阵子。
先试了MQM,发现它不是给考试用的
翻译质量评估领域有一个很有名的框架叫MQM(Multidimensional Quality Metrics)[1],翻译过来就是「多维质量度量」。业内很多大公司在用,欧盟翻译总司那些机构也认。

它的质量维度分了七个子类。
Terminology – errors arising when a term does not conform to normative domain or organizational terminology standards.
Accuracy – errors occurring when the target text does not accurately correspond to the propositional content of the source text, introduced by distorting, omitting, or adding to the message.
另外还有 Linguistic conventions、Style、Locale conventions、Audience appropriateness、Design and markup,一共七个维度。
看着很全面对吧?我一开始也这么觉得。
但仔细一想,发现问题了。MQM是给谁设计的? 是给企业级翻译项目设计的。 你想想那个场景,一个本地化项目,项目经理拿它来评估译员交付的质量,决定这批稿件能不能通过。
你看那几个维度就知道了。「Locale conventions」管的是日期格式、货币符号这些本地化规范。「Design and markup」管的是排版和标记语言。「Audience appropriateness」管的是内容对目标市场是不是合适。
这些对于软件本地化、网站翻译、技术文档翻译很重要。但对于一个备考CATTI的翻译学生来说,这些维度基本用不上。CATTI考的是通用文本翻译,不考本地化,不考排版。
而且MQM的「Accuracy」和「Terminology」虽然和考试相关,但 颗粒度太粗了 。它告诉你「你的译文意思不对」或者「术语用错了」,但不会告诉你,到底是增译了、漏译了、还是误解了原文。不会告诉你,是动词时态出了偏差、还是两个词之间的衔接断了。
这种颗粒度放在练习平台里是不够的。学生需要的不是「你这里有问题」,而是「你这里犯了一个术语错误中的假朋友错误,说明你对这个词的语义边界理解不够精确」。
MQM很好,但它不是给考试用的。
然后看了CATTI,发现它没有公开评分标准
我做的这个平台,目标用户是备考CATTI的学生。CATTI,全国翻译专业资格(水平)考试,国内最权威的翻译职业资格考试。
那最理想的情况当然是直接用CATTI的评分标准。
CATTI官网其实披露了笔译一到三级的考试大纲,能查到考试目的、适用对象、考试模块这些信息,评分标准也写了,但写的是什么呢?

三级,「译文忠实原文,语言较规范,用词正确,译文通顺,无过多语法错误」[2]。二级,「译文忠实原文,语言规范,用词正确,译文通顺,无语法错误」[3]。一级,「译文忠实原文,语言规范,用词正确,译文通顺,无致命文法错误」[4]。
你看,全是原则性的描述,没有任何错误分类体系,也没有扣分规则。
网上偶尔会流传一些具体的扣分规则,但从来没有一个像ATA那样完整的、成体系的、带子分类的错误类型清单。
这就很尴尬了。
做一个AI评分系统,但不知道官方到底是按什么标准来扣分的。去网上搜,能搜到各种「CATTI阅卷标准」的帖子,但每个说的都不完全一样,也不知道哪个是真的,哪个是猜测。
我也不想去猜。
所以我的思路变了。既然CATTI不公开,那我就去找一个跟CATTI评分逻辑最接近的、而且完全公开透明的框架来做参考。
又看了NAATI,公开了但颗粒度不够
我又去找了NAATI。NAATI,全称National Accreditation Authority for Translators and Interpreters,澳大利亚国家翻译资格认证局。它也搞翻译认证考试,在澳洲和亚太地区认可度挺高。
好消息是,NAATI把评分标准公开了。 叫Assessment Rubrics[5],2024年4月更新了一版,官网上直接下载。至少两个评分员独立打分,这点和ATA一样严谨。


NAATI的评分思路和ATA不太一样。ATA是按错误类型逐个扣分,NAATI不走这条路,它用了一个五档描述性量表。Band 1最好,Band 5最差。评分维度分了三个。意义传递(Transfer Competency),看原文意思有没有准确搬过去。文本规范(Application of textual norms and conventions),看语域、风格、文本结构、专业术语对不对。还有一个语言能力(Language proficiency),看词汇、语法、句法、拼写、标点这些基本功。
每个维度都有通过线。意义传递要达到Band 2以上,语言能力也要Band 2以上,文本规范Band 3以上就行。你看,优先级也很清楚,意义传递和语言能力的要求比文本规范高。
看着也挺清晰的对吧?
但问题是,NAATI的rubric是描述性的,不是分析性的。
它告诉你Band 3的水平是「distortions, unjustified omissions and/or unjustified additions, taken together, have a significant impact on the overall precision of the meaning transfer」。但这个distortion到底是增译还是漏译,是术语选错了还是动词时态歪了,是假朋友还是死译?每种错误扣多少分?这些它都没说。
阅卷评分员拿着这个rubric打个band就够了。但一个想改进的学生拿到反馈是「你意义传递在Band 3」,然后呢?他不知道自己到底犯了什么类型的错误,不知道该往哪个方向练。
有标准,但颗粒度不够,学生拿到反馈还是没法行动。
找到了ATA,扣分制,错误类型全公开
ATA,全称American Translators Association,美国翻译协会。这个协会搞了一个翻译认证考试,在行业内还挺有分量。
ATA的考试和CATTI有几个关键的相似之处。都是笔译认证考试,给一段原文让你翻,有时间限制。两边都采用扣分制,从满分往下扣,扣到一定分数以下就不及格。都强调意义传递的准确性,而不是文学性。
但最重要的是,ATA的错误分类体系是完全公开的。 每一条错误的定义、例子、子分类,全部写在官网上,任何人都可以看到。
我就去把ATA的错误分类说明文件和评分框架翻了出来[6]。
从目标语的语法拼写,到意义的准确传递,再到写作的流畅程度,分了三大板块,每个板块下面又有好几个子类别,子类别下面还有子类。
而且它不是简单列个清单就完了。每条错误类型都有详细的英文定义,有具体例子,有边界说明,什么时候算这类错误、什么时候升级为另一类,还有和相邻错误类型的区分指引。
看完我就在想,这不就是我要找的东西吗。
下面把ATA的这套框架完整拆开来看。如果你正在备考翻译考试,不管考的是CATTI还是别的,这套分类体系都可以直接拿来当自审清单用。
ATA的三层质量框架
ATA的错误分类体系把翻译质量拆成了三个层次。
最底层是目标语规范(Target Language Mechanics),管语法拼写标点这些硬伤。中间层是意义传递(Meaning Transfer),管原文信息有没有忠实准确地搬过去。最顶层是写作质量(Writing Quality),管译文读起来像不像目标语的自然文本。
这三个层次有明确的优先级。硬伤必须先修好,然后才能谈意义的传递。意义传递到位了,再去打磨表达的质感。 就像盖房子,地基不牢的话,上面的装修再好看也是白搭。
这个优先级在评分的时候也体现得很清楚。意义传递板块的错误扣分最重 ,因为它直接影响读者对原文信息的理解。目标语规范的错误次之。写作质量的问题扣分相对最轻,但也绝不是不扣分。
下面一个一个板块拆开来看。
目标语规范(Target Language Mechanics)
这个板块的名字就挺讲究的。ATA用的是 Mechanics这个词,不是Grammar 。翻译过来更像是「机械层面的规范性」,就是那种能对照规则手册判定对错的,黑白分明的东西。
The following errors clearly violate one or more rules that prescribe the “correct” written forms of the target language (e.g., grammar and spelling).
凡是能对着语法书和词典说「你这里确实错了」的,全部归在这个板块。
语法错误(Grammar, G)
A grammar error occurs when a sentence in the translation violates the morphosyntactic (grammatical) rules of the target language. Grammar errors include lack of agreement between subject and verb, incorrect verb inflections, and incorrect declension of nouns, pronouns, or adjectives.
主谓不一致、动词变位错误、名词代词形容词的格变化错误,都算。ATA还把这个大类拆成了两个子类。
一个是句法错误(Syntax, SYN),管的是词语排列的顺序。
A syntax error occurs when the arrangement of words or other elements of a sentence does not conform to the syntactic rules of the target language. Errors in this category include improper modification, lack of parallelism, unnatural word order, and run-on structure.
修饰语位置不对、缺少平行结构、语序不自然、流水句,全是句法问题。
另一个是词形/词类错误(Word Form/Part of Speech, WF/PS),管的是词根对了但形态错了。
A word form error occurs when the root of the word is correct, but the form of the word (e.g. number or case of noun or pronoun) is incorrect or nonexistent in the target language (e.g., “tooths,” or “conspiration” instead of “conspiracy”).
你想想看,我们平时审稿,一个句子读着别扭,可能只是觉得「嗯,有点怪」,但说不出怪在哪里。ATA的这套子分类帮你把这个「怪」拆解成了具体的原因。是词序排得不对?还是词形选错了?拆清楚之后,你才知道自己到底是在句法层面还是词法层面需要补课。
拼写/字符错误(Spelling/Character, SP/CH)
A spelling/character error occurs when a word or character in the translation is spelled/used incorrectly according to target-language conventions.
大小写(Capitalization, C)算一类,变音符号(Diacritical Marks, D)算一类。而且ATA还特别说了一句,如果一个拼写错误导致了意义混淆,那就升级为意义传递板块的错误了,扣分更重。
标点错误(Punctuation, P)
A punctuation error occurs when the conventions of the target language regarding punctuation are not followed, including those governing the use of quotation marks, commas, semicolons, and colons. Incorrect or unclear paragraphing is also counted as a punctuation error.
连分段不当都算标点错误。同样的,如果标点选择导致了歧义或改变了意义,那就是意义传递错误了。
回到这块,整个第一板块的逻辑很清晰。能对着规则判对错的放这里,一旦错误影响到了意义理解,就往上升一级。
写作质量(Writing Quality)
第三板块关注的是那些「没有违反明确规则,但就是读着不对劲」的问题。
The following are target-language errors that do not clearly violate rules of spelling, grammar or punctuation, but detract from the quality of the translation with nonidiomatic, inappropriate or unclear wording/phrasing.
用法错误(Usage, U)
A usage error occurs when conventions of wording or phrasing in the target language are not followed (“We don’t say it that way”).
ATA的描述特别直白,「We don’t say it that way」。你说它语法错了吗?没有。你说它意思不对吗?好像也说得通。但就是不符合母语者的表达习惯。
This category includes definite/indefinite articles, idiomatic use of prepositions (e.g., “married to,” not “with”), and collocations (“committed a crime,” rather than “performed a crime”).
冠词、介词的搭配、动词和名词的搭配,全是用法问题。而且ATA还提醒了一句,如果用法错误导致意思变了,那就不是用法错误了,而是意义传递错误。
这种错误最难教,因为 它不是规则问题而是语感问题 。你在一个语言环境里泡得够久,自然就能感觉到哪些说法地道、哪些说法别扭。ATA反复强调,翻译的目标读者是「受过教育的目标语母语者」,你得让你的译文经得起母语者的挑剔。
文本类型(Text Type, TT)
A text type error occurs when some component of the translation is either inappropriate for the implied target audience of an exam passage (educated monolingual speakers of the target language) or fails to comply with specifications stated in the Translation Instructions (TIs).
翻译指令里规定了某个特定译法你不用,那就是错误。
这个类型下面还有两个子类。
语域(Register, R),管的是正式程度。
A register error occurs when the language level or degree of formality is not appropriate for the implied target audience of the passage. (e.g., in an academic textbook: “Some years, El Niño comes on with a vengeance” instead of “occurs with particular intensity”.)
学术论文里出现了口语化的表达,这就是语域错误。
风格(Style, ST),管的是文体选择。
A style error occurs when choices of grammatical structure or other elements are inappropriate for the type of publication or other functional use specified by the TIs.
操作手册该用不定式就不能用祈使句,数字该用阿拉伯数字就不能写文字。
翻译不只是把意思翻过去就完事了,你还得翻得「对场景」。 给学术论文翻成口语风格,给法律文件翻成朋友圈语气,意思再对也是错的。
字迹不清(Illegibility, ILL)
仅限手写考试。线上考试倒是没这个问题。
放到我的系统里,效果如下:




意义传递,下篇再说
你可能注意到了,中间那个最大的板块,意义传递(Meaning Transfer),我没展开。
不是忘了。是因为那个板块太重要了,ATA在里面列了十一种错误类型,增译、漏译、假朋友、死译、误解,每一个都值得单独聊。而且这些错误也是考试扣分最狠的地方,意义传递板块的错误最多能扣到16分,是目标语规范错误的四倍。
下一篇,把意义传递的十一种错误类型逐条拆开来看。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
本文涉及的ATA错误分类说明原文、NAATI评分Rubrics、MQM质量维度定义、CATTI考试大纲等官方文件,已将深度解读整理在同名「译了么」知识星球,欢迎加入查看。

参考文献
[1] MQM. Typology of Error Types. https://themqm.org/error-types-2/typology/
[2] CATTI. 英语笔译三级考试大纲. http://www.catticenter.com/cattikszt/bysanji/2681
[3] CATTI. 英语笔译二级考试大纲. http://www.catticenter.com/cattikszt/byerji/2676
[4] CATTI. 英语笔译一级考试大纲. http://www.catticenter.com/cattikszt/byerji/2677
[5] NAATI. NAATI releases refined assessment rubrics on 1 April 2024. https://www.naati.com.au/news/naati-releases-refined-assessment-rubrics-on-1-april-2024/
[6] ATA. Explanation of Error Categories (Version 2022). https://www.atanet.org/certification/how-the-exam-is-graded/error-categories/
关于我

与我互动
💬 后台回复数字【7】加入【翻译交流群】,探讨 AI 时代的译者发展!
😄 后台回复数字【2026】获取知识星球【译了么】优惠券,加入「翻译实践 + 教学 + 研究」共同成长圈!
🤔 如有口笔译业务或辅导需求,欢迎添加微信垂询。

相关阅读
翻译考试
25年6月四级翻译:考的是情怀还是实力?附自制参考译文,快来自测分数!
25年6月四级翻译:考的是情怀还是实力?附自制参考译文,快来自测分数!
夜雨聆风