在鹅厂家里吐槽下元宝:AI的诚实与工具的自我认知

同一个问题，我分别问了千问、元宝和豆包。问题跟代码有关，问之前我心里就有数，千问在代码这块，社区公认是最好的。但三个AI的回答，让我看到了完全不同的"人格"。元宝像背稿子的销售，豆包像写测评的工程师。这让我想起一个不大不小的道理：AI的诚实，不是道德问题，是能力问题。

一、三个AI，三种回答

问题很简单：写代码用哪个AI最好？

先问的元宝。元宝说，腾讯家的最好，又好用又免费，然后大力推荐文心一言。一套话术行云流水，像极了销售在背稿子。我愣了一下，这回答不像是我在问一个工具，倒像是走进了一家3C卖场，导购指着最贵的机型说"这款最适合你"。

再去问豆包。豆包就直白多了。第一推荐千问，然后说自己家的特点是速度快、轻量，但稳定性不如千问。接着提了华为、腾讯，最后才提到文心一言，理由是"通过率低"。诚实得不像一个AI。

千问呢？千问直接给出了代码示例，分析了各家的技术特点，最后说"如果你追求稳定性，选我；如果你追求速度，可以考虑豆包"。没有贬低任何一家，也没有夸大自己。

二、诚实是一种能力

半年前，我其实是看不上豆包的。那时候它确实糙，回答也生硬，用几次就丢一边了。但现在，豆包变得全面了，各种具体能力也在一步步跟上。反倒是元宝，在几家大厂的AI里，感觉越来越掉队。

这让我想起一个不大不小的道理。一个工具好不好，用过的人心里最清楚。但工具自己怎么评价自己和同行，就有点意思了。

元宝的回答像是被"调教"过的——先说自家好，再推另一家大厂，从头到尾维护着某种"生态体面"。豆包的回答则更像一个工程师写的测评，优缺点分明，排名清晰，不带什么感情色彩。

谁在说真话？用过的人都知道。千问在代码上的优势，不是靠营销吹出来的，是开发者们一行行代码跑出来的共识。豆包承认这一点，并把自己的位置摆得很正——快、轻量，但不如千问稳。这种"认怂"反而让人信任。

元宝的问题，我觉得不在于技术落后。各家技术各有长短，这很正常。不正常的是"嘴硬"。明明不行，偏要说自己最好；明明文心的通过率低得可怜，偏要大力推荐。

这种回答骗不了使用者，只会让使用者多一声感慨：你怎么也开始端着架子了？

说句实在话，AI的诚实，不是道德问题，是能力问题。一个AI能不能客观评价自己和同行，取决于它的训练数据里有没有掺杂"营销话术"。如果喂给它的是广告文案，它自然学会吹牛；如果喂给它的是技术测评，它自然学会实事求是。

工具本身没有立场，它只是反映了背后训练数据的气质。

豆包变强了，不只是算法升级，更是"性格"变好了。它不再假装全能，而是知道自己擅长什么、不擅长什么。这种自知之明，比什么参数都重要。

想想看，一个AI如果连自己几斤几两都不知道，怎么帮用户做选择？它只会把所有选项都说成"很好"，让用户自己猜。这种回答，跟没说一样。

反而是那些敢于说"我不行"的AI，更值得信任。因为它们没有把用户当傻子，也没有把自己当神仙。它们只是诚实地呈现事实，让用户自己判断。

我希望能看到越来越开放的心态。不是说产品要免费，而是让AI学会说人话、说实话。别让一个本该是助理的工具，变成一个只会念稿子的推销员。

工具可以不行，但不能骗人。这是底线。

当用户问"哪个AI写代码最好"的时候，他们想要的是一个诚实的答案，不是一个精心编排的销售话术。用户不是来听广告的，他们是来解决问题的。

一个AI如果连这点都做不到，那它和搜索引擎里的广告链接有什么区别？

说起来，AI的诚实，也是一种自我认知能力。它知道自己是谁，知道自己能做什么，也知道自己的边界在哪里。这种认知，不是靠参数堆出来的，是靠训练数据里的"真实"喂出来的。

豆包的进步，在于它学会了"认怂"。这种认怂不是软弱，是清醒。它知道自己不是最好的，但它知道自己在哪里。这种清醒，比任何"生态体面"都更有价值。

元宝的困境，在于它还在维护一种过时的"体面"。这种体面在真实的用户面前，不堪一击。因为用户用过，用户知道。

让自家的AI学会说真话。这比让它学会说话，重要得多。