乐于分享
好东西不私藏

DeepSeek API 惊艳,App 却掉智商,问题出在哪?

DeepSeek API 惊艳,App 却掉智商,问题出在哪?

最近DeepSeek OpenAI等大厂纷纷出了最新的模型。

由于前几天伯克利的文章说评测已经不能看了,AI跑分全是假的?伯克利团队拆穿了排行榜的底裤

我在自己搭的小项目上面,针对文章和播客的语义理解分析这个维度,密集测了测各家大模型,体感越来越强烈:

API的时候,DeepSeek V4 pro很猛,Opus 4.7仍然不错,但没好到天上去,字节Seed 2.0 Pro也还行——差距没那么明显。

但一打开手机App用起来的话,画风立刻变了。

DeepSeek的输出明显不够品味

Opus断层领先。

豆包就是情绪价值给足,回答准确性嘛,大差不差。

大家有没有同感?

模型评分是一个层面,这一层是完全没眼看。然后裸模型(API)是一个层面,在项目直接接入API的时候是能有很明确的体感的。

到咱们最直接使用的手机App后,体感差距就非常明显了!各家App对话聪明程度,品味,办事尽心尽力的能力是完全不一样的。

仔细研究后才发现,咱们项目上直接使用的API接触的是裸模型,通过CApp接触的是套了一整套工程层的产品”——中间差的东西非常多。

一、第一层:系统调教角色训练

同一个Opus 4.7,裸API使用和Claude对话上输出的味道完全不一样。

为啥?

Claude套了一个数万token量级的系统调教(system prompt)。

而且Anthropic在角色训练(character training)上的投入是行业里最大的——这是咱们感受到的Claude更懂你,更聪明,更有品味的主要来源。

DeepSeek V4API用起来很强大,但是App几乎没在这层做工程。模型再强,出来的味道也淡。

豆包介于中间——字节跳动的产品工程能力很强,但模型底子比Anthropic的opus弱一档。

System prompt不是简单的提示词

是一整套人格说明书。

什么时候用什么口吻、什么不能说、遇到边界情况怎么响应、长上下文怎么聚焦、用户情绪低落的时候怎么处理……这些都不在模型权重里,在工程层。

打个比方好理解:裸API给你的,是没穿衣服的模型。App给你的,是化了妆穿了正装带了工具的同一个人。

二、第二层:模型路由和降级

CApp普遍做分级路由。

免费用户给量化或蒸馏版,付费用户才给满血。

移动端尤其常见——INT4/INT8量化压缩成本,跑得快、省算力,体感勉强能接受就行。

DeepSeek免费App给你的,大概率不是V4满血,是flash版。

这是它经济模型决定的。

API价格本身就极低(百万token输入只要一两块人民币),不咋赚钱,C端再上满血就是纯亏。

Claude在这点上比较奢侈。他们的策略也很对味。不用蒸馏模型瞎对付和敷衍你的问题,让你一两个对话就能感受到对面明显质的飞跃。

但是你再想用的话,对不起,上pro,沉迷使用半周后,usage用完,发现这些对话内容完全值回票价,来,继续上max

这个策略真的值得国内所有大模型公司学习。不是大家没有付费意愿,而是你在对话的时候要珍惜用户的每一次尝试,用户愿意付出时间精力去尝试体验,要珍惜这个机会,不要刻意注水。

Anthropic的结果大家也看到了,咱先不提大头是2B客户拿钱排队。2C付费层(Pro 20美元/月、Max 100200美元/月)直接给Opus本体,不偷偷换小模型。这个付费订阅增长迅猛,Dylan Patel的访谈说毛利从年初的30%已经干到现在的70%了!

一句话:

API比的是标价App比的是实际给你跑的是哪个版本

这两件事经常不是一回事。

三、第三层:外部连接工具

这一层最容易被低估,也最关键。

ArtifactsWeb SearchMemoryCode ExecutionComputer UseProjectsSkills……

这一层类似咱们编程时用到的MCP,外部连接工具。

虽然Claude 在多模态上确实不行,但是在回答你问题和完成你布置任务上面,真的是在全力以赴充分调用各种工具。

用户体感的智能,很大一部分其实是这些工具在帮模型补短板。

你要个总结,直接给你出报告,甚至自己调用文档skill去画。

你要个数据分析,直接给你做个网页清晰展示(还带各种小互动工具)。

甚至在对话框,你让它写代码,它自己都能跑个沙箱给你个还不错能用的结果。

模型只负责决策,工具补全能力。

Claude在这层投入非常重,DeepSeek基本没做,豆包做了一部分(联网、Coze)但深度不及Anthropic

这一层的差距,纯靠benchmark是看不出来的。

跑各种评测,DeepSeek分数可能比Claude还高几分。

但你真用起来感觉“Claude更聪明”——不是模型聪明,是它身边那些工具让它显得聪明。

很多人以为AI竞争是模型竞争。现在比的是模型加工具加character三件套。

四、第四层:后训练数据分布

DeepSeek是研究驱动型公司,它的RLHFreasoning benchmark

Anthropic的后训练偏对话品质和长尾人类偏好。

同样跑数学竞赛,DeepSeek可能更亮眼。

但跑日常对话和写作,Claude出来的东西就是对味

——这是公司基因的差异,不是某次训练的问题。

DeepSeek团队骨子里是研究员,他们的目标函数偏benchmark上证明智能

Anthropic团队骨子里有大量做HCI、做人类反馈对齐、做对话设计的人,目标函数偏让人觉得这玩意聪明懂行

两套目标函数,同样的算力,跑出两个完全不同的产品。

如果你的KPI是登Nature、是刷榜,DeepSeek的路径是对的。

如果你的KPI是日活、是付费转化、是用户用得爽,Anthropic的路径是对的。

五、启示

这个体感差距,其实是个非常干净的信号。

它能看出一家AI公司的战略定位。

公司

APIApp的差距

战略定位

DeepSeek

API强、App明显弱

纯模型公司,偏研究机构性质,主战场是开源生态加API低价支持全生态

Anthropic

App体验优于API裸调

模型加产品复合,认真做C端,character是核心资产

字节豆包

模型不顶级、App工程极强

标准产品公司打法,模型是配套设施而不是终极武器

OpenAI

中等偏Anthropic方向

模型加应用双线,但近期产品节奏明显被Anthropic反超

从估值逻辑上看:

纯模型公司的护城河是相对脆弱的——模型每代会被追上,开源更是抹平差距的加速器。

Anthropic这种模型加产品加character”三层叠加,护城河更厚。

——这也是它估值能拉到超越OpenAI的核心理由之一。就连浓眉大眼的谷歌都抛弃自家模型跑去勾搭投资了Anthropic。

DeepSeek的意义在于基于国产芯片做出了顶级好用的模型,而且开源还巨便宜,为整个中国制造提供了AI时代的基座——它打的是另一场战争。

字节这种产品公司,估值的支撑点不在AI模型本身,而在C端用户和分发能力——豆包的独特拟人化特征,可以用在所有场景。

不要在benchmark上找答案,要在用户每天用什么、用得爽不爽、付不付费、留存几个月里找答案。

我之前写过伯克利指出AI评测体系失灵的问题——模型变强的速度,已经超过了评测体系迭代的速度,benchmark现在的信号价值在快速衰减。

还是要实际上手去用,找到最适合自己使用场景的工具。模型公司的壁垒已经不只是模型本身了,App这一层才能看出他们真正的护城河。

— END —