同一个问题,我分别问了千问、元宝和豆包。问题跟代码有关,问之前我心里就有数,千问在代码这块,社区公认是最好的。但三个AI的回答,让我看到了完全不同的"人格"。元宝像背稿子的销售,豆包像写测评的工程师。这让我想起一个不大不小的道理:AI的诚实,不是道德问题,是能力问题。
一、三个AI,三种回答
问题很简单:写代码用哪个AI最好?
先问的元宝。元宝说,腾讯家的最好,又好用又免费,然后大力推荐文心一言。一套话术行云流水,像极了销售在背稿子。我愣了一下,这回答不像是我在问一个工具,倒像是走进了一家3C卖场,导购指着最贵的机型说"这款最适合你"。
再去问豆包。豆包就直白多了。第一推荐千问,然后说自己家的特点是速度快、轻量,但稳定性不如千问。接着提了华为、腾讯,最后才提到文心一言,理由是"通过率低"。诚实得不像一个AI。
千问呢?千问直接给出了代码示例,分析了各家的技术特点,最后说"如果你追求稳定性,选我;如果你追求速度,可以考虑豆包"。没有贬低任何一家,也没有夸大自己。
二、诚实是一种能力
半年前,我其实是看不上豆包的。那时候它确实糙,回答也生硬,用几次就丢一边了。但现在,豆包变得全面了,各种具体能力也在一步步跟上。反倒是元宝,在几家大厂的AI里,感觉越来越掉队。
这让我想起一个不大不小的道理。一个工具好不好,用过的人心里最清楚。但工具自己怎么评价自己和同行,就有点意思了。
元宝的回答像是被"调教"过的——先说自家好,再推另一家大厂,从头到尾维护着某种"生态体面"。豆包的回答则更像一个工程师写的测评,优缺点分明,排名清晰,不带什么感情色彩。
谁在说真话?用过的人都知道。千问在代码上的优势,不是靠营销吹出来的,是开发者们一行行代码跑出来的共识。豆包承认这一点,并把自己的位置摆得很正——快、轻量,但不如千问稳。这种"认怂"反而让人信任。
三、嘴硬的代价
元宝的问题,我觉得不在于技术落后。各家技术各有长短,这很正常。不正常的是"嘴硬"。明明不行,偏要说自己最好;明明文心的通过率低得可怜,偏要大力推荐。
这种回答骗不了使用者,只会让使用者多一声感慨:你怎么也开始端着架子了?
说句实在话,AI的诚实,不是道德问题,是能力问题。一个AI能不能客观评价自己和同行,取决于它的训练数据里有没有掺杂"营销话术"。如果喂给它的是广告文案,它自然学会吹牛;如果喂给它的是技术测评,它自然学会实事求是。
工具本身没有立场,它只是反映了背后训练数据的气质。
四、自知之明比参数重要
豆包变强了,不只是算法升级,更是"性格"变好了。它不再假装全能,而是知道自己擅长什么、不擅长什么。这种自知之明,比什么参数都重要。
想想看,一个AI如果连自己几斤几两都不知道,怎么帮用户做选择?它只会把所有选项都说成"很好",让用户自己猜。这种回答,跟没说一样。
反而是那些敢于说"我不行"的AI,更值得信任。因为它们没有把用户当傻子,也没有把自己当神仙。它们只是诚实地呈现事实,让用户自己判断。
五、底线:可以不行,不能骗人
我希望能看到越来越开放的心态。不是说产品要免费,而是让AI学会说人话、说实话。别让一个本该是助理的工具,变成一个只会念稿子的推销员。
工具可以不行,但不能骗人。这是底线。
当用户问"哪个AI写代码最好"的时候,他们想要的是一个诚实的答案,不是一个精心编排的销售话术。用户不是来听广告的,他们是来解决问题的。
一个AI如果连这点都做不到,那它和搜索引擎里的广告链接有什么区别?

在鹅厂家的阵地里吐槽下元宝。也是去年一直表扬元宝,DISS豆包的一个小小纠正吧。
说起来,AI的诚实,也是一种自我认知能力。它知道自己是谁,知道自己能做什么,也知道自己的边界在哪里。这种认知,不是靠参数堆出来的,是靠训练数据里的"真实"喂出来的。
豆包的进步,在于它学会了"认怂"。这种认怂不是软弱,是清醒。它知道自己不是最好的,但它知道自己在哪里。这种清醒,比任何"生态体面"都更有价值。
元宝的困境,在于它还在维护一种过时的"体面"。这种体面在真实的用户面前,不堪一击。因为用户用过,用户知道。
让自家的AI学会说真话。这比让它学会说话,重要得多。
夜雨聆风