DeepSeek API 惊艳,App 却掉智商,问题出在哪?-夜雨聆风

DeepSeek API 惊艳,App 却掉智商,问题出在哪?

最近DeepSeek OpenAI等大厂纷纷出了最新的模型。

由于前几天伯克利的文章说评测已经不能看了，AI跑分全是假的？伯克利团队拆穿了排行榜的底裤

我在自己搭的小项目上面，针对文章和播客的语义理解分析这个维度，密集测了测各家大模型，体感越来越强烈：

用API的时候，DeepSeek V4 pro很猛，Opus 4.7仍然不错，但没好到天上去，字节Seed 2.0 Pro也还行——差距没那么明显。

但一打开手机App用起来的话，画风立刻变了。

DeepSeek的输出明显不够“品味”。

Opus断层领先。

豆包就是情绪价值给足，回答准确性嘛，大差不差。

大家有没有同感？

模型评分是一个层面，这一层是完全没眼看。然后裸模型（API）是一个层面，在项目直接接入API的时候是能有很明确的体感的。

到咱们最直接使用的手机App后，体感差距就非常明显了！各家App对话聪明程度，品味，办事尽心尽力的能力是完全不一样的。

仔细研究后才发现，咱们项目上直接使用的API接触的是“裸模型”，通过C端App接触的是套了一整套工程层的“产品”——中间差的东西非常多。

一、第一层：系统调教和角色训练

同一个Opus 4.7，裸API使用和Claude对话上输出的味道完全不一样。

为啥？

Claude套了一个数万token量级的系统调教（system prompt）。

而且Anthropic在角色训练（character training）上的投入是行业里最大的——这是咱们感受到的Claude更懂你，更聪明，更有品味的主要来源。

DeepSeek V4的API用起来很强大，但是App几乎没在这层做工程。模型再强，出来的味道也淡。

豆包介于中间——字节跳动的产品工程能力很强，但模型底子比Anthropic的opus弱一档。

System prompt不是简单的“提示词”。

是一整套人格说明书。

什么时候用什么口吻、什么不能说、遇到边界情况怎么响应、长上下文怎么聚焦、用户情绪低落的时候怎么处理……这些都不在模型权重里，在工程层。

打个比方好理解：裸API给你的，是没穿衣服的模型。App给你的，是化了妆穿了正装带了工具的同一个人。

二、第二层：模型路由和降级

C端App普遍做分级路由。

免费用户给量化或蒸馏版，付费用户才给满血。

移动端尤其常见——用INT4/INT8量化压缩成本，跑得快、省算力，体感勉强能接受就行。

DeepSeek免费App给你的，大概率不是V4满血，是flash版。

这是它经济模型决定的。

API价格本身就极低（百万token输入只要一两块人民币），不咋赚钱，C端再上满血就是纯亏。

Claude在这点上比较“奢侈”。他们的策略也很对味。不用蒸馏模型瞎对付和敷衍你的问题，让你一两个对话就能感受到对面明显质的飞跃。

但是你再想用的话，对不起，上pro，沉迷使用半周后，usage用完，发现这些对话内容完全值回票价，来，继续上max。

这个策略真的值得国内所有大模型公司学习。不是大家没有付费意愿，而是你在对话的时候要珍惜用户的每一次尝试，用户愿意付出时间精力去尝试体验，要珍惜这个机会，不要刻意注水。

Anthropic的结果大家也看到了，咱先不提大头是2B客户拿钱排队。2C付费层（Pro 20美元/月、Max 100到200美元/月）直接给Opus本体，不偷偷换小模型。这个付费订阅增长迅猛，Dylan Patel的访谈说毛利从年初的30%已经干到现在的70%了！

一句话：

API比的是标价，App比的是实际给你跑的是哪个版本。

这两件事经常不是一回事。

三、第三层：外部连接工具

这一层最容易被低估，也最关键。

Artifacts、Web Search、Memory、Code Execution、Computer Use、Projects、Skills……

这一层类似咱们编程时用到的MCP，外部连接工具。

虽然Claude 在多模态上确实不行，但是在回答你问题和完成你布置任务上面，真的是在全力以赴充分调用各种工具。

用户体感的“智能”，很大一部分其实是这些工具在帮模型补短板。

你要个总结，直接给你出报告，甚至自己调用文档skill去画。

你要个数据分析，直接给你做个网页清晰展示（还带各种小互动工具）。

甚至在对话框，你让它写代码，它自己都能跑个沙箱给你个还不错能用的结果。

模型只负责决策，工具补全能力。

Claude在这层投入非常重，DeepSeek基本没做，豆包做了一部分（联网、Coze）但深度不及Anthropic。

这一层的差距，纯靠benchmark是看不出来的。

跑各种评测，DeepSeek分数可能比Claude还高几分。

但你真用起来感觉“Claude更聪明”——不是模型聪明，是它身边那些工具让它显得聪明。

很多人以为AI竞争是模型竞争。现在比的是模型加工具加character三件套。

四、第四层：后训练数据分布

DeepSeek是研究驱动型公司，它的RLHF偏reasoning benchmark。

Anthropic的后训练偏对话品质和长尾人类偏好。

同样跑数学竞赛，DeepSeek可能更亮眼。

但跑日常对话和写作，Claude出来的东西就是“对味”。

——这是公司基因的差异，不是某次训练的问题。

DeepSeek团队骨子里是研究员，他们的目标函数偏“在benchmark上证明智能”。

Anthropic团队骨子里有大量做HCI、做人类反馈对齐、做对话设计的人，目标函数偏“让人觉得这玩意聪明懂行”。

两套目标函数，同样的算力，跑出两个完全不同的产品。

如果你的KPI是登Nature、是刷榜，DeepSeek的路径是对的。

如果你的KPI是日活、是付费转化、是用户用得爽，Anthropic的路径是对的。

五、启示

这个体感差距，其实是个非常干净的信号。

它能看出一家AI公司的战略定位。

公司	API与App的差距	战略定位
DeepSeek	API强、App明显弱	纯模型公司，偏研究机构性质，主战场是开源生态加API低价支持全生态
Anthropic	App体验优于API裸调	模型加产品复合，认真做C端，character是核心资产
字节豆包	模型不顶级、App工程极强	标准产品公司打法，模型是配套设施而不是终极武器
OpenAI	中等偏Anthropic方向	模型加应用双线，但近期产品节奏明显被Anthropic反超

从估值逻辑上看：

纯模型公司的护城河是相对脆弱的——模型每代会被追上，开源更是抹平差距的加速器。

Anthropic这种“模型加产品加character”三层叠加，护城河更厚。

——这也是它估值能拉到超越OpenAI的核心理由之一。就连浓眉大眼的谷歌都抛弃自家模型跑去勾搭投资了Anthropic。

DeepSeek的意义在于基于国产芯片做出了顶级好用的模型，而且开源还巨便宜，为整个中国制造提供了AI时代的基座——它打的是另一场战争。

字节这种产品公司，估值的支撑点不在AI模型本身，而在C端用户和分发能力——豆包的独特拟人化特征，可以用在所有场景。

不要在benchmark上找答案，要在用户每天用什么、用得爽不爽、付不付费、留存几个月里找答案。

我之前写过伯克利指出AI评测体系失灵的问题——模型变强的速度，已经超过了评测体系迭代的速度，benchmark现在的信号价值在快速衰减。

还是要实际上手去用，找到最适合自己使用场景的工具。模型公司的壁垒已经不只是模型本身了，App这一层才能看出他们真正的护城河。

— END —