DeepSeek API 惊艳,App 却掉智商,问题出在哪?
最近DeepSeek OpenAI等大厂纷纷出了最新的模型。
由于前几天伯克利的文章说评测已经不能看了,AI跑分全是假的?伯克利团队拆穿了排行榜的底裤
我在自己搭的小项目上面,针对文章和播客的语义理解分析这个维度,密集测了测各家大模型,体感越来越强烈:
用API的时候,DeepSeek V4 pro很猛,Opus 4.7仍然不错,但没好到天上去,字节Seed 2.0 Pro也还行——差距没那么明显。
但一打开手机App用起来的话,画风立刻变了。
DeepSeek的输出明显不够“品味”。
Opus断层领先。
豆包就是情绪价值给足,回答准确性嘛,大差不差。
大家有没有同感?
模型评分是一个层面,这一层是完全没眼看。然后裸模型(API)是一个层面,在项目直接接入API的时候是能有很明确的体感的。
到咱们最直接使用的手机App后,体感差距就非常明显了!各家App对话聪明程度,品味,办事尽心尽力的能力是完全不一样的。
仔细研究后才发现,咱们项目上直接使用的API接触的是“裸模型”,通过C端App接触的是套了一整套工程层的“产品”——中间差的东西非常多。
一、第一层:系统调教和角色训练
同一个Opus 4.7,裸API使用和Claude对话上输出的味道完全不一样。
为啥?
Claude套了一个数万token量级的系统调教(system prompt)。
而且Anthropic在角色训练(character training)上的投入是行业里最大的——这是咱们感受到的Claude更懂你,更聪明,更有品味的主要来源。
DeepSeek V4的API用起来很强大,但是App几乎没在这层做工程。模型再强,出来的味道也淡。
豆包介于中间——字节跳动的产品工程能力很强,但模型底子比Anthropic的opus弱一档。
System prompt不是简单的“提示词”。
是一整套人格说明书。
什么时候用什么口吻、什么不能说、遇到边界情况怎么响应、长上下文怎么聚焦、用户情绪低落的时候怎么处理……这些都不在模型权重里,在工程层。
打个比方好理解:裸API给你的,是没穿衣服的模型。App给你的,是化了妆穿了正装带了工具的同一个人。
二、第二层:模型路由和降级
C端App普遍做分级路由。
免费用户给量化或蒸馏版,付费用户才给满血。
移动端尤其常见——用INT4/INT8量化压缩成本,跑得快、省算力,体感勉强能接受就行。
DeepSeek免费App给你的,大概率不是V4满血,是flash版。
这是它经济模型决定的。
API价格本身就极低(百万token输入只要一两块人民币),不咋赚钱,C端再上满血就是纯亏。
Claude在这点上比较“奢侈”。他们的策略也很对味。不用蒸馏模型瞎对付和敷衍你的问题,让你一两个对话就能感受到对面明显质的飞跃。
但是你再想用的话,对不起,上pro,沉迷使用半周后,usage用完,发现这些对话内容完全值回票价,来,继续上max。
这个策略真的值得国内所有大模型公司学习。不是大家没有付费意愿,而是你在对话的时候要珍惜用户的每一次尝试,用户愿意付出时间精力去尝试体验,要珍惜这个机会,不要刻意注水。
Anthropic的结果大家也看到了,咱先不提大头是2B客户拿钱排队。2C付费层(Pro 20美元/月、Max 100到200美元/月)直接给Opus本体,不偷偷换小模型。这个付费订阅增长迅猛,Dylan Patel的访谈说毛利从年初的30%已经干到现在的70%了!
一句话:
API比的是标价,App比的是实际给你跑的是哪个版本。
这两件事经常不是一回事。
三、第三层:外部连接工具
这一层最容易被低估,也最关键。
Artifacts、Web Search、Memory、Code Execution、Computer Use、Projects、Skills……
这一层类似咱们编程时用到的MCP,外部连接工具。
虽然Claude 在多模态上确实不行,但是在回答你问题和完成你布置任务上面,真的是在全力以赴充分调用各种工具。
用户体感的“智能”,很大一部分其实是这些工具在帮模型补短板。
你要个总结,直接给你出报告,甚至自己调用文档skill去画。
你要个数据分析,直接给你做个网页清晰展示(还带各种小互动工具)。
甚至在对话框,你让它写代码,它自己都能跑个沙箱给你个还不错能用的结果。
模型只负责决策,工具补全能力。
Claude在这层投入非常重,DeepSeek基本没做,豆包做了一部分(联网、Coze)但深度不及Anthropic。
这一层的差距,纯靠benchmark是看不出来的。
跑各种评测,DeepSeek分数可能比Claude还高几分。
但你真用起来感觉“Claude更聪明”——不是模型聪明,是它身边那些工具让它显得聪明。
很多人以为AI竞争是模型竞争。现在比的是模型加工具加character三件套。
四、第四层:后训练数据分布
DeepSeek是研究驱动型公司,它的RLHF偏reasoning benchmark。
Anthropic的后训练偏对话品质和长尾人类偏好。
同样跑数学竞赛,DeepSeek可能更亮眼。
但跑日常对话和写作,Claude出来的东西就是“对味”。
——这是公司基因的差异,不是某次训练的问题。
DeepSeek团队骨子里是研究员,他们的目标函数偏“在benchmark上证明智能”。
Anthropic团队骨子里有大量做HCI、做人类反馈对齐、做对话设计的人,目标函数偏“让人觉得这玩意聪明懂行”。
两套目标函数,同样的算力,跑出两个完全不同的产品。
如果你的KPI是登Nature、是刷榜,DeepSeek的路径是对的。
如果你的KPI是日活、是付费转化、是用户用得爽,Anthropic的路径是对的。
五、启示
这个体感差距,其实是个非常干净的信号。
它能看出一家AI公司的战略定位。
|
公司 |
API与App的差距 |
战略定位 |
|
DeepSeek |
API强、App明显弱 |
纯模型公司,偏研究机构性质,主战场是开源生态加API低价支持全生态 |
|
Anthropic |
App体验优于API裸调 |
模型加产品复合,认真做C端,character是核心资产 |
|
字节豆包 |
模型不顶级、App工程极强 |
标准产品公司打法,模型是配套设施而不是终极武器 |
|
OpenAI |
中等偏Anthropic方向 |
模型加应用双线,但近期产品节奏明显被Anthropic反超 |
从估值逻辑上看:
纯模型公司的护城河是相对脆弱的——模型每代会被追上,开源更是抹平差距的加速器。
Anthropic这种“模型加产品加character”三层叠加,护城河更厚。
——这也是它估值能拉到超越OpenAI的核心理由之一。就连浓眉大眼的谷歌都抛弃自家模型跑去勾搭投资了Anthropic。
DeepSeek的意义在于基于国产芯片做出了顶级好用的模型,而且开源还巨便宜,为整个中国制造提供了AI时代的基座——它打的是另一场战争。
字节这种产品公司,估值的支撑点不在AI模型本身,而在C端用户和分发能力——豆包的独特拟人化特征,可以用在所有场景。
不要在benchmark上找答案,要在用户每天用什么、用得爽不爽、付不付费、留存几个月里找答案。
我之前写过伯克利指出AI评测体系失灵的问题——模型变强的速度,已经超过了评测体系迭代的速度,benchmark现在的信号价值在快速衰减。
还是要实际上手去用,找到最适合自己使用场景的工具。模型公司的壁垒已经不只是模型本身了,App这一层才能看出他们真正的护城河。
— END —
夜雨聆风