你对AI的直觉,可能全是错的

刷到一个很反常识的事情，我花了两天把相关论文全翻了一遍，发现我们跟AI打交道时的很多"常识"，其实都是错的。

2025年10月，宾夕法尼亚州立大学的Om Dobariya和Akhil Kumar在arXiv上发了一篇论文《Mind Your Tone》，只有5页，研究的问题特别简单：你跟AI说话的语气，会不会影响它回答的准确率？

他们设计了50道跨学科选择题（数学、科学、历史），每道题改写成5个语气版本，从"您能好心帮我解这道题吗？"到"你个没用的，会解这道题吗？"，250个prompt全丢给GPT-4o，每题跑10遍。

结果是这样的梯度：

非常礼貌→80.8%，礼貌→81.4%，中性→82.2%，粗鲁→82.8%，非常粗鲁→84.8%。

统计检验确认这不是随机波动。

这篇论文至少打脸了三种人：

第一种人觉得"对AI要有礼貌，它才会好好干活"——数据显示礼貌版准确率最低。

第二种人觉得"AI又没有情绪，语气无所谓"——数据显示语气确实影响表现，只不过方向跟你想的不一样。

第三种人觉得"那我骂它就行了"——这个结论也站不住，等我后面说为什么。

论文里有一个细节被大部分中文报道忽略了。

老模型和新模型，对被骂的反应完全相反

同一套实验思路，2024年Yin等人在GPT-3.5和Llama-2-70B上跑过，结论是反的——粗鲁语气会让老模型表现暴跌，Llama-2-70B在最粗鲁条件下准确率直接腰斩到28%。

也就是说，从GPT-3.5到GPT-4，模型对语气的反应发生了翻转。老模型怕骂，新模型不怕骂甚至越骂越准。

为什么会翻转？

论文没有给确切答案，但结合几个相关研究，我有一个推测：GPT-4之后的模型在RLHF训练中被强化了"服从指令"的能力。当它检测到命令式语言，可能会激活更直接的执行路径；而当它检测到过多礼貌措辞，反而会进入一种"揣摩用户意图"的模式，花算力去猜你到底想要什么。

这跟人类世界刚好相反。人类听到命令式语言会抵触，听到客气话会更配合。AI的反应是反过来的。

如果故事到这里结束，那结论就是"以后跟AI说话别客气"。

但沃顿商学院2025年发了一组《Prompting Science Reports》，在GPQA Diamond博士级基准上做了大规模测试，每题跑100次，直接把"语气有用论"推翻了。

他们的发现是：在宏观统计上，礼貌、命令、威胁、利诱这些语气变化，对模型平均准确率的影响几乎为零。

但在单道题上，效果完全是随机的——同一个"请"字，可能让A题准确率暴涨36%，同时让B题暴跌35%。

研究者原话是：这些提示词改变的不是模型的智力，而是概率分布的噪点。你加一个"请"，相当于往概率分布里扔了一颗骰子，结果不可预测。

那沃顿的研究里，什么才是真正稳定的正收益？不是语气，是格式。明确指定输出格式（JSON、表格、特定开头），比任何语气词都更能提升稳定性和准确率。

也就是说，宾州州立论文里那个4个百分点的差距，在更大样本下可能根本不可复现。它不是规律，是噪声。

把几篇论文放在一起看，一条更底层的规律浮出来了。

粗鲁prompt之所以偶尔有效，不是因为"骂"本身有什么魔力，而是因为粗鲁的人通常不会加客套——"你个废物给我算出来"这句话里，跟任务相关的token占比接近100%。反观"您能否拨冗考虑一下下面这个问题并给出您的答案"，跟任务相关的token被一堆礼貌用语稀释了。

模型的注意力机制要逐个token分配权重。核心指令被包裹得越厚，权重越容易被分散。

所以真正有效的不是"态度粗鲁"，而是"信息密度高"。你可以完全礼貌地说"请回答以下问题"，砍掉所有冗余客套，效果跟粗鲁版一样好。

根据2026年最新的跨语言大规模研究（No Universal Courtesy, arXiv:2604.16275，覆盖5个模型、3种语言、22500组对比）也指向同一个方向：礼貌策略的效果高度依赖语言和模型，没有放之四海而皆准的最优语气，但"指令清晰"在所有条件下都是正收益。

我后来拿这个思路去检查了一些常见的prompt写法，发现到处都是反面教材。

"请您以专业的角度帮我写一份"——"以专业角度"到底是什么角度？模型不知道，只能猜。

"如果你不介意的话，能不能帮我看看这段代码有什么问题？"——"如果你不介意"对模型来说完全是废token。

"希望你能给出一个详尽而简洁的分析"——"详尽"和"简洁"是矛盾的，模型的算力会浪费在猜测你到底要哪个上面。

反过来，真正高效的人通常是这么写的：

"你是后端工程师。审查这段代码的安全漏洞。输出格式：漏洞名 + 严重等级 + 修复建议。"

没有任何客气，也没有任何粗鲁，但每个字都在传递有效信息。

不是让你变成赛博恶霸去骂AI。

也不是让你继续当职场社恐，每句话前面加三个客套。

是把你跟AI之间的对话当成一份合同来写：目标是什么、约束是什么、输出格式是什么。把这三件事说清楚，比任何"请""谢谢""如果你不介意"都管用。

那些被客套浪费掉的token，对AI来说不是尊重，是噪音。