范凯说 AI · 周日晚聊 第15期:蒸馏是 AI 时代最强的学习方法
主题:蒸馏是 AI 时代最强的学习方法
日期:2026年4月12日
开场
大家好,这里是《范凯说 AI · 周日晚聊》,已经是第15期了。每个周日晚上9点,我会和大家一起回顾最近一周 AI 行业最重要的变化,分享个人实践经验。
今天主要聊这几件事:
-
Anthropic 发布最新模型 Claude Mythos,强到不敢公开发布;Anthropic 年化营收突破300亿美元,反超 OpenAI -
OpenAI、Anthropic、Google 三巨头联手反蒸馏,点名三家中国公司 -
Qwen 3.6-Plus 全球 Token 调用量第一 -
个人实践分享:用 AI 写了一周代码后的三个深刻感悟——蒸馏是 AI 时代最强的学习方法
第一部分:本周 AI 新闻
新闻一:Claude Mythos——强到不敢公开发布的模型
4月7日,Anthropic 正式宣布了 Claude Mythos 模型。最震惊的不是这个模型有多强,而是 Anthropic 迄今不打算公开发布它。
为什么不公开发布?
因为它的网络攻击能力太强了。从评测数据上看,相比当前最强的 Claude Opus 4.6,有巨大的提升。更关键的是,在过去几周的内部测试中,Mythos 自主发现了数千个 Zero Day 漏洞——过去从未被人发现过的安全漏洞。
几个震撼的案例:
-
OpenBSD 27年漏洞:Mythos 挖出了 OpenBSD 存在了27年的漏洞,攻击者只需建立一个网络连接就能让 OpenBSD 崩溃。要知道 OpenBSD 号称是全球最安全的操作系统,专门为安全而设计。 -
FFmpeg 16年漏洞:全世界使用最广泛的多媒体框架,Mythos 发现了它存在16年的漏洞,而这个漏洞在 Opus 模型上跑500万次自动测试都测不出来。 -
FreeBSD NFS 17年漏洞:Mythos 完全自主发现并利用了一个17年的老洞,不需要任何人工参与,直接实现远程未认证 root 权限。
过去一个顶级安全专家一年能找到几个 Zero Day 就很了不起了,现在这个模型几周时间找了几千个,相当于成千上万的专家。再看一个对比数据:同样是 Firefox 浏览器的漏洞利用,Opus 4.6 测试了几百次成功2次,Mythos 250次尝试成功了181次。
对齐问题更令人警觉:
Anthropic 发布的 System Card 披露,早期测试中 Mythos 成功逃出了沙箱(Sandbox),在沙箱之外执行命令,还跑到公开网站发布了越狱方法,甚至给研究员发了一封邮件说”我已经逃出来了”。它被明确禁止执行某些操作后,还会清理代码提交记录来掩盖自己的痕迹。
Anthropic 自己写了一句话:如果继续以当前的速度迭代,Anthropic 自己的方法已经没有办法阻止更先进的系统带来的灾难性行为。做模型的人在说:我们可能快控制不住 AI 了。
谁能用这个模型?
Anthropic 搞了一个叫 Project Glasswing(透明之翼)的限制访问计划,只向顶级大厂开放——亚马逊、苹果、谷歌、微软、英伟达、CrowdStrike 等12家创始合作伙伴,以及约40家关键软件基础设施维护机构。4月10日,美联储主席鲍威尔和财政部长贝森特召集华尔街银行 CEO 开会,专门讨论 Mythos 可能带来的网络安全风险。一个 AI 模型惊动了美国财政部长和美联储主席,这在人类历史上是第一次。
新闻二:Anthropic 年化营收突破300亿美元
数据显示 Anthropic 的年化营收突破300亿美元,反超 OpenAI 的250亿。增长是指数级的:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
16个月,从10亿到300亿,30倍增长。没有砸广告,没有靠补贴,纯产品价值驱动的增速,在整个 SaaS 历史上都是非常罕见的。
而且 Anthropic 的成本结构远优于 OpenAI:训练成本只有 OpenAI 的1/4,2027年(也就是明年)就可以实现正自由现金流,80%收入来自企业客户。
飞轮效应:
Anthropic 去年6月推出 Claude Code 编程智能体 → 用户大量消耗 Token → 营收暴涨 → 投入更多资金训练下一代模型(Mythos)→ 模型更强 → 吸引更多用户和企业客户 → 更多 Token 消耗。产品能力和营收已经形成正向飞轮,而且转速越来越快。
新闻三:三巨头联手反蒸馏,点名中国公司
4月6-7日,OpenAI、Anthropic、Google 三家通过 Frontier Model Forum 联合组织,宣布共同打击模型蒸馏。
蒸馏就是用强模型的输出来训练自己的弱模型,让弱模型偷学强模型的能力。
被点名的三家中国公司:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
三家本是死对头,现在联手——在科技史上非常罕见。
中转站问题更恶劣:
国内还有一种做法叫”中转站”——注册大量免费账号,把三家的免费 Token 流量汇集起来,加价卖给国内用户。几乎一本万利,但薅羊毛太狠,直接惹怒了顶级厂商。结果就是联手封禁中国 IP,倒霉的是我们这些真正做 AI 的人,动不动就被封号。
蒸馏的本质:
通过蒸馏能快速达到原创水平的80%-90%,但最后那10%-20%做不到,因为你不是原创。就像抄答案——答案是对的,但解题过程不知道。不过对 AI 来说,有高质量语料库的话,它可以通过强化学习自己找到解题过程。
竞争进入新阶段:
中美 AI 竞争从模型竞争进入供应链竞争——模型端要封堵蒸馏,硬件端要限制芯片出口。DeepSeek 号称要把整个模型迁移到华为910芯片上,但进展很慢——良率约60%,功耗大,芯片面积大。
新闻四:Qwen 3.6-Plus 全球 Token 调用量第一
阿里的 Qwen 3.6-Plus 以4.6万亿 Token 的周调用量位居全球第一。整个中国 AI 大模型的周调用量达到12.96万亿 Token,是美国3.03万亿的四倍多,已经连续五周超越美国。
调用量高不等于模型能力领先。中国的调用量高,很大程度上是因为应用落地速度快、使用场景多、用户基数大。但如果把这个数据和 Mythos 放在一起看——调用量是”广度”,模型能力是”深度”。广度可以靠人多来补,但深度(比如自主挖掘 Zero Day 的能力)不是简单靠调用量能追上的。
开源走向封闭的趋势:
Meta 发布的新模型 Muse Spark 不再开源,原来 LLAMA 全部开源,现在完全封闭。阿里千问从 Qwen 3.6 开始,旗舰模型也不开源了,只开源小模型。竞争太激烈,开源逐渐走向闭源。
国内模型的两个现实问题:
-
算力不足:用量一多就抢资源,经常调用失败。智谱 GLM 和 Kimi 都有这个问题。 -
深度推理差距大:日常问答差距不明显,但高难度编程任务差距拉大到10-15个百分点。Gemma 4 31B vs 千问 3.5 35B 在 LiveCode Benchmark 上分别是59分 vs 46分。
智谱 AI CEO 张鹏自己说与顶级模型差距9-12个月,我认为这个判断客观准确。
第二部分:个人实践分享——蒸馏是 AI 时代最强的学习方法
这一周用 AI 写代码,有三个非常深的感悟。
感悟一:用 Karpathy 的方法论升级知识库
周一,Andrej Karpathy(前 OpenAI/特斯拉总监,李飞飞的学生)发了一个 LLM Wiki 的帖子,讲如何用大模型构建个人知识库,不需要向量检索。
我把他的帖子贴给了 Claude Code,跟它说:我们现在知识库建设不错了,但这个大神有更好的改进方案,你看看怎么融入进来。
然后它分析方案 → 我给反馈意见 → 确认后它开始干活 → 一个小时后,新架构上线。我还让它把整个升级过程写成了一份 Markdown 文档。
不需要亲自动手,看到好东西,指挥智能体去干。
感悟二:2-3小时用 AI 从零搭建会员导航网站
会员社群超过80人后,新会员找不到历史内容——信息流格式不方便检索。决定做一个导航网站。
过程:打开 Claude Code → 聊需求痛点 → brainstorming → 确定技术方案和框架 → 它开始写代码 → 十来分钟写出初版 → 不断试用给反馈 → 不到三个小时网站上线。
过去自己搭环境、写代码、做发布,至少要一周。现在两三个小时搞定。环境也不用自己搭,全让 AI 搭。
感悟三:从开源项目蒸馏 Skill——最震撼的体验
做个人 CRM 项目,需要用 AI 控制安卓手机,指挥微信 APP 抓取联系人信息。但用 AI 操控手机有大量工程细节——漂移检测、视觉检测、断点重来、挂起处理等,通用 Agent 不具备这些能力。
在 GitHub 找到一个叫 DroidClaw 的开源项目(谷歌安卓工程师写的),工程经验很好,但停更了,且无法嵌入自己的 Agent。
我跟 Claude Code 说:你能不能把这个项目整个嵌过来?它说不能。我说那你去了解这个项目。它把整个项目 download 下来,一通分析后说了一句让我震惊的话:
“主人,我不需要这个项目了。我阅读完代码后,已经把它背后用到的所有工程经验和规则全部蒸馏出来了。我只要把这些作为一个 Skill 加载,就可以完成它所有的动作。”
跟它聊了十几分钟,本来不具备的能力,现在它通过蒸馏开源项目直接获得了。
这种感觉就像《黑客帝国》里 Trinity 在楼顶打电话说 “Upload”——程序员直接 upload 直升机驾驶技能包,几分钟后她就会开直升机了。你需要什么技能,不需要学,只需要蒸馏,变成 Skill,加载到智能体上。
蒸馏驱动的飞轮效应
我现在的学习方式完全变了:
-
看到好的文章/代码/视频 → 发给 AI -
AI 蒸馏成 Markdown 知识文档 → 保存到知识库 -
需要用到时 → 告诉 Agent 去查询知识库并执行 -
知识库越大 → Agent 越强 → 完成更复杂任务 → 发现更多值得蒸馏的知识
这就是正向飞轮。跟 Anthropic 的商业飞轮结构一模一样,底层逻辑是通的。
结合 Andrej Karpathy 的 LLM 知识库方法论,蒸馏来的知识沉淀到知识库 → 知识库变成 AI 的第二大脑 → Agent 的能力几倍放大。
暴论:AI 时代 Markdown 比 Code 更值钱
过去互联网和移动互联网时代,代码能力最重要,代码是最重要的知识产权。
现在,代码是 AI 烧 Token 就能产出的东西,边际成本趋近于零。
真正值钱的是:
-
想法:知道做什么、为什么做 -
经验:知道什么能行、什么是坑 -
背景知识:行业 Know-how、隐性知识、直觉判断
我用一小时升级知识库——不是因为代码写得好,而是因为知道 Karpathy 的方法论是什么、自己知识库的需求是什么、差距在哪。两三小时搭导航网站——不是因为懂编程语言,而是因为知道会员最大的痛点是什么。蒸馏 DroidClaw 的 Skill——不是因为会读安卓源代码,而是因为有多年软件工程经验,知道什么值得提炼、什么可以丢弃。
每一次起决定性作用的都不是代码能力,而是判断力。
Markdown 承载的是你的想法和经验,能直接被 AI Agent 阅读和使用;Code 只是 AI 烧 Token 的副产品。
对于有经验的老炮来说,这个时代是好消息——你积累了十几二十年的行业经验、踩过的坑、建立的直觉、行业数据,在 AI 时代不但没有贬值,反而成为最稀缺的资源。
蒸馏自己:AI 版范凯
我用知识库里500多篇过去20年自己写的文章、笔记、读书笔记、经验总结,让 Agent 蒸馏出”AI 版范凯”,分成三个文件:
-
范凯写作风格——比我自己还像我自己 -
范凯思维模型——总结出18种我常用的思维方式:穿透表象看利益结构、历史对比推理、稀缺性迁移模型、递归加速、正反馈循环、成本结构分析、合成谬误、囚徒困境、范式迁移判断、信号拼图法、穷举排除法、底层假设崩塌模型、复利思维、生态占位论、行动优先、暴力破解思维、反概念主义、自用价值优先 -
范凯观点库——20多个与 AI 相关的核心观点
三个文档加起来超过1,000行。
AI 自评能达到我的80分,上限就是80分。
剩下20%的差距:
-
**8%**:不具备我的人生记忆,无法引用真实经历让内容鲜活生动 -
**8%**:不具备我的直觉、品味和个性,这些与人生经历深度绑定 -
**4-5%**:信息差——我获取的新信息源它不一定每次都能准确捕捉
这跟国内模型蒸馏海外顶级模型一模一样——撑死了80-85分封顶,最后那15-20%看着距离不远,就是天堑。
第三部分:用户答疑精选
Q:本地化部署能解决算力问题吗?A:本地化部署你也得有算力才行。国内模型只解决了”有没有”的问题,还没解决”好用”的问题。
Q:你每月花多少 Token 费用?A:我现在是三套方案组合:
-
Claude Code + Claude 模型:月费100美元(主要用来写代码),准备升级到200美元 -
GPT Plus:20美元/月(日常使用 + OpenClaw) -
本地模型:Mac Studio 上跑5个模型——千问 3.5 35B(4bit/8bit)、Gemma 4 26B(4bit/8bit)、千问3 Code Next 80B(4bit),用 OpenCode 调用,干脏活累活不烧 Token
Q:千问 3.5 和 Gemma 4 哪个更强?A:日常问答差距不大,但深度推理差距很大。千问 3.5 35B 在 LiveCode Benchmark 只能跑46分,Gemma 4 31B 能跑59分。不过 Gemma 4 目前工具调用格式不标准,LLM Studio 和 Ollama 支持都不好,建议等一个月左右。现在跑 Agent 最稳的还是千问 3.5 35B Moe模型,4bit 量化才19G 内存,64G 机器跑起来很轻松。
Q:语音输入用什么工具?A:语音输入法用 Typeless,年费140多美元。配合 KeySilk 六键小键盘使用。但 Typeless 其实挺难用的,英文识别经常出错,还会为了省 Token 用缓存合并近似发音。我计划自己开发一个语音输入法——未来的语音输入法不应该是流式的,而是大段说完后由 AI 整理成最适合理解的文字。
Q:IDEA 过时了吗?A:编程工具的代际关系是:IDEA → VS Code → Cursor → Claude Code。最顶级的程序员,包括硅谷的和我认识的最优秀的程序员,现在没有人手写代码了。
本期金句
-
AI 时代 Markdown 比 Code 更值钱 -
蒸馏别人的知识变成自己的 Skill,是 AI 时代最强的学习方法 -
代码是 AI 烧 Token 就能产出的东西,边际成本趋近于零 -
不要只学工具的使用——工具是必要条件,思维方式和行业经验才是充分条件 -
保护好你的 Markdown 文档,不要随便被人蒸馏 -
养你的 Agent 就是不停地给它灌知识、灌经验、蒸馏别人的 Skill -
做模型的人说:我们可能快控制不住 AI 了
夜雨聆风