AI工具的分水岭,正在悄悄发生

GitHub这两天开源了一个叫Spec Kit的工具包，项目一上线就拿到10万多star，讨论区里最热的词是「vibe coding」。

Vibe coding，直译过来就是「氛围编程」，你感受一下这个词的杀伤力，说的是现在大家用AI写代码的状态，给个模糊的提示，AI就开始写了，写着写着需求就跑偏了，边界没说清楚，代码反复返工。

GitHub这个Spec Kit，核心就一句话，别让AI瞎写了，先把产品规范写清楚。

听着像废话对吧？但你想想，这两年AI编程工具火成这样，Claude Code、Cursor、Codex，哪个不是在宣传「你说一句话我就能给你写代码」？现在GitHub自己跳出来说，等等，你得先把规范写好。

这事儿有意思的点在于，它不是在说工具不行，而是在说，工具已经太行了，行到你必须得学会怎么「驾驭」它，而不是被它牵着走。

用AI编程的人应该都遇到过这种情况，给它一个松散的需求，它真的就开始干了，速度贼快，然后你发现，诶不对，这个边界情况它没考虑，那个功能它理解错了。倒不是说它蠢，而是它太听话了，你没说清楚，它就按自己的理解来。

Spec Kit的思路很简单，把流程倒过来。不是「我有个想法，AI你帮我实现」，而是「我先把产品功能、技术边界、任务分解全写清楚，然后让AI按这个规范执行」。规范变成了一份可执行的开发合约。

支持Claude Code、Codex、Cursor这些主流AI编程工具，加起来30多个agent。

你看，这就是我说的分水岭。

这个「氛围编程」的词其实挺讽刺的，精准描述了现状，大家拿到AI工具，第一反应是「我终于不用自己写代码了」，然后就开始各种提示词，各种让AI帮忙。结果呢？需求没理清楚，代码写出来一堆bug，最后还得自己返工。

你不是不用写代码了，你是需要学会怎么「设计」代码。

今天日报里还有一个对比测试，MiniMax M3和Claude Opus 4.8做代码审计，同一个代码库，预先埋了17个bug，MiniMax花了7美分抓到13个，Claude最便宜的运行花了1.3美元，也是13个。

这个对比不是在说哪个模型更强，而是在说，代码审计这件事，已经变成了一个「可以用更便宜的模型搞定」的任务。成本降了，速度快了，那接下来呢？

接下来就是，你得知道怎么用这些工具。

Spec Kit这个思路，其实就是在告诉大家，别把AI当万能钥匙，它是个执行力超强的助手，但你得先告诉它「执行什么」。

今天日报里有一个特别有意思的案例。

Hugging Face搞了个Thousand Token Wood v2，用四个不同实验室的小模型，gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B，还有一个微调的Qwen 0.5B，来驱动一个金融模拟游戏。

0.5B参数的模型，你敢信？？？

这个项目的核心发现是，小模型不是不行，而是你得知道它擅长什么。它们是「可靠的格式生成器，但不可靠的推理器」。你给它结构化的任务，加上提示词和微调，它0%自成交、100%有效报价，真相防火墙零泄露。

但你要让它去做复杂推理，它就不行了。

小模型的未来不是取代大模型，而是成为「专用工具」。你不需要每次都调GPT-4或者Claude Opus，很多任务，一个微调过的小模型就能搞定，成本低，速度快。

Hugging Face还发布了一个Job Searcher，用DeepSeek V4 Pro做教师模型，微调一个Qwen3-8B的学生模型，来做AI求职搜索。用户上传简历，系统自动从技能匹配、经验相关性、教育背景、行业契合度、资历对齐五个维度给职位打分。

训练在单张A100上完成，推理跑在Hugging Face的ZeroGPU Space上。

你看，这就是小模型的玩法，专注一个垂直场景，把它做到极致。

说完小模型，再说说大厂。

今天最炸的新闻，谷歌每月给SpaceX 9.2亿美元，买xAI数据中心的算力。

每月9.2亿美元。

看到这个数字，第一反应是，算力已经变成了战略资源。你有多少算力，你就能训练多大的模型，你就能在AI竞赛里占多大的位置。

OpenCV 5今天也发布了，ONNX算子覆盖率从4.x的不到23%直接跳到80%以上，原生支持Transformer、VLM、LLM。这个库GitHub有8.6万stars，每天安装量超过一百万次。

你想想，一个做计算机视觉的老牌开源库，现在要原生支持大语言模型了。这说明什么？说明整个AI生态，正在往「大一统」的方向演化。以前搞CV的用OpenCV，搞NLP的用Transformers，现在界限越来越模糊，工具也开始跨界。

还有一个细节，美国众议院发了个法案草案，想把AI监管权力从各州手里收回来，集中到联邦层面。

这事儿背后的逻辑是，AI发展太快了，各州各搞一套规则，企业根本没法玩。所以联邦跳出来说，我来统一管。

但你仔细想想，这其实也是一种「分水岭」。监管开始介入，说明AI已经从实验室走到了真实世界，开始影响社会运转了。

回到开头那个Spec Kit。

它的底层思路其实很经典，叫「契约式设计」。你写代码之前，先把前置条件、后置条件、不变量全定义清楚，然后代码只是这个契约的实现。

Spec Kit就是把这个思想搬到了AI编程上。你先把产品规范写清楚，这个规范就是契约，AI是执行者。

这种思路，其实适用于所有AI工具。

你用AI写文章，你得先想清楚文章的核心观点、目标读者、叙事结构。你用AI做设计，你得先想清楚设计目标、用户场景、交互逻辑。你用AI做数据分析，你得先想清楚分析目的、数据来源、验证方法。

AI不是魔法，它是工具。工具的好坏，取决于使用它的人。

还有一个值得聊的，Hugging Face搞的那个Persona Atlas，通过网络搜索生成公众人物的资料，然后让这个人物回答10个开放式问题，每个回答转成嵌入向量，在向量空间里比较不同人物的距离。

这个项目有意思的地方在于，它在尝试把「人格」量化。你跟我的距离有多远？不是物理距离，是思想距离、价值观距离。

AI正在把一些科幻概念变成现实。

聊了这么多，说点实在的。

如果你是开发者，Spec Kit值得试试。不是说你必须用它，而是它代表的那种思路，「先规范，后执行」，真的能帮你省很多返工的时间。

如果你在关注小模型，Hugging Face那几个案例值得研究。尤其是Thousand Token Wood v2那个，它告诉你，小模型不是不行，而是你得知道怎么用。

如果你只是普通用户，想用AI提升工作效率，记住一句话，别把AI当万能钥匙，它是个执行力超强的助手，但你得先告诉它「执行什么」。

用AI的感受是，工具已经不是瓶颈了，瓶颈在于你能不能清晰地表达你的需求，能不能把一个模糊的想法拆解成可执行的任务。

这其实是一种能力，叫「AI素养」。

不是说你得学会写代码，而是你得学会「跟AI说话」。你得知道，哪些任务适合交给AI，哪些任务AI做不好。你得知道，怎么把一个大任务拆成小任务，怎么验证AI的输出是不是靠谱。

这种能力，未来会变成一种基础技能，就像打字、用Excel一样。

从GitHub的Spec Kit，到MiniMax的7美分代码审计，到谷歌每月9.2亿美元买算力，再到小模型在垂直场景的应用，看到的是一个趋势，AI工具的分水岭，正在悄悄发生。

工具已经足够强大了，现在比拼的是，谁能更好地驾驭这些工具。

AI时代最稀缺的不是技术，是想象力和判断力。

技术会越来越普及，门槛会越来越低，但你能想到什么，你能判断什么是对的，这个东西，AI给不了你。

屏幕前的你，如果正在用AI做各种事情，不妨停下来想想，你是在被工具推着走，还是在主动驾驭工具？

如果是前者，或许可以试试Spec Kit那种思路，先想清楚自己要什么，再让AI帮你实现。

如果是后者，恭喜你，你已经走在正确的路上了。

大时代啊，朋友们。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧

谢谢你看我的文章，我们，下次再见。