「AI健自习室原创」重磅 Software 4.0:当代码变成对话,工作变成调度——从一个铃声工具看见未来 10 年

字数 7408，阅读大约需 38 分钟

🚀「AI健自习室原创」重磅 Software 4.0：当代码变成对话，工作变成调度——从一个铃声工具看见未来 10 年

微信公众号：[AI健自习室]关注Crypto与LLM技术、关注AI-StudyLab。问题或建议，请公众号留言。

Info

这是一篇可能值得你重读 5 年的文章。关键词：Software 4.0 · Agentic Stack · Skills × MCP × LLM × 神经网络本文基于 Andrej Karpathy YC 2025 演讲、Anthropic / OpenAI / Cursor / Cognition 公开数据，结合作者本周开源的 ringtone-forge^[1] v2.4 实战，提炼出一个可落地的工程范式。

上周末我做了一件小事：让一个 30 秒铃声生成工具里的 LLM 真正参与了处理决策。

跑完之后，我盯着那段 verify 失败、Claude 自动诊断、修参数、重跑、通过的日志看了很久。突然有种很强的感觉 —— 这不是个铃声工具，这是未来软件的最小验证。

未来 10 年的软件长什么样？商业模式怎么变？工程师做什么？产品给谁用？我把这些问题想清楚了，写下这篇文章。

文章很长，但每一段都是干货。如果你只看一段，请看 第三章「Software 4.0 五层范式」——那是核心。

🎵 一、从一首歌的 30 秒，看见软件的 30 年

事情是这样的。

我维护一个开源工具叫 ringtone-forge^[1]，做的事情很简单：喂一首歌进去，30 秒后吐出一段 AI 自动找的副歌做的铃声。从 v2.0 到 v2.3，它已经跑得很稳了 —— Demucs 神经网络分离人声、librosa 启发式找最响段、ffmpeg 做音量曲线，整套流程是经典的”AI + 工程”组合。

但是我的对外宣传里有句话一直让我心里发虚：「LLM Agent × 神经网络」。

事实上，v2.3 时代的”LLM Agent”只是外层 —— 用户在 Claude Code 里说「做铃声」，Skill 触发命令行，命令行跑完，LLM 解读结果。LLM 从未真正进入处理管线。

这周末我做了 v2.4。给 CLI 加了两个旗子：

# 用户说自然语言，LLM 翻译成参数ringtone-forge song.mp3 --tune "开头再轻一点"# LLM-in-the-loop: 自动跑、看、改、再跑ringtone-forge song.mp3 --agent --max-retries 3

第二条命令，让真实的 Claude Sonnet 4.6 去跑了一首电子音乐 Brainiac_Maniac。第一次跑完，verify 报告 3 项失败。Claude 看了报告，给了一段诊断：

“起始振幅从 0.30 降到 0.15 以加深开头与高潮的对比（约 -16dB），并将渐入延长到 14 秒、sustain 缩短到 13 秒，使中段能稳定停留在接近高潮的响度。”

第二次跑完，7/7 全过。

那一刻我突然意识到 —— 这不是一个 feature。这是软件范式的换代。

LLM 不是被叫来用一下工具的”助手”，它是工程节点上真正在做推理判断的智能层。它读了我写的工程语言（dB、振幅、sustain），用工程语言回我（”加深对比度”、”稳定停留”），并给出可执行的参数。

我开始往后想。如果 ringtone-forge 是这样，那音乐生成、视频剪辑、文档处理、客服对话、数据分析、代码审查……所有 AI 落地的场景都会是这样。

那未来软件长什么样？这就是这篇文章要回答的问题。

🧬 二、Karpathy 的三个范式：我们在哪一站？

要看清未来，先要看懂演化。Andrej Karpathy 2025 年 6 月在 YC AI Startup School 做了一次演讲，叫 “Software Is Changing (Again)”^[2]。这场演讲在科技圈被反复引用，因为它给了一个公认的演化框架：

范式	时代	核心
Software 1.0	1950s — 至今	人类用代码写指令（C / Java / Python）
Software 2.0	2012 — 至今	神经网络权重就是程序（数据训练出来的）
Software 3.0	2023 — 至今	提示词即程序（英文成为新的编程语言）

Karpathy 的核心观察是：“Software 3.0 is eating Software 1.0 and 2.0”。LLMs 不再只是工具，它们开始扮演新的操作系统——你的代码运行在 OS 上，而 OS 运行在 LLM 上。

这个观察非常有力。但它还没说完。

在 ringtone-forge v2.4 里，我看到的是另一个层次的现象：

• LLM 在外层做 Agent（”做铃声”触发整个流程）
• LLM 在内层做精细决策（看 verify 失败、提建议）
• 神经网络（Demucs）做专业计算
• Skills（SKILL.md）封装可复用的领域经验
• MCP 协议连接外部工具（@upic 上传 CDN、@lark-cli 同步飞书）
• 工程层（ffmpeg + Python）做确定性执行

这不是 Software 3.0，因为 3.0 的核心是”提示词即程序”，但这里的程序由多种”程序”协同构成：自然语言提示 + 神经网络权重 + Skill 文档 + MCP 协议调用 + 传统代码。

我把这种范式叫做 Software 4.0：Agentic Stack。

它不是在替代 1.0 / 2.0 / 3.0，而是把它们编织成一个完整的协作系统。每一层做它最擅长的事，LLM 在其中扮演调度者和决策者。

支撑这个判断的，是几个无法忽视的数据点：

📊 Anthropic 内部 70-90% 的代码是 AI 写的（Dario Amodei 公开承认）📊 OpenAI 内部 80% 的代码是 AI 写的（Greg Brockman, 2026）📊 Cursor 估值 $50B，3 年内做到 $2B ARR（一家做 IDE 的）📊 MCP 协议：97M 月度下载、10000+ 服务器、已捐给 Linux Foundation📊 AI 自主解决 70%+ 的软件 issues（12 个月前还不到 20%）📊 Anthropic IPO 据传估值 $900B

每一个数据点单独看都很惊人。把它们放一起看，规律一清二楚 —— 不是单个公司、单个工具的成功，是一整个范式正在成型。

下面我把这个范式拆开讲清楚。

🏛 三、Software 4.0：五层范式架构（核心）

我画了一张图，把这个范式的五层结构描述清楚：

从上到下五层，每一层做一件不可替代的事：

Layer 0 · 人（Human）

角色：意图发送方 + 最终验证者

关键转变：人不再写代码、不再操作 GUI，而是给目标 / 设计 Skill / 验收结果。具体怎么实现，交给下面四层。

这是一个根本性的角色转移。在 Software 1.0 时代，人是”指令书写员”；在 4.0 时代，人是”意图设计师”和”质量审查员”。

Layer 1 · LLM Agent（决策层）

角色：理解需求 → 调度工具 → 自愈式重试

两个位置：

• 外层 Agent：在用户对话端，由 Cursor / Kiro / Claude Code 等触发。读你的自然语言，决定要不要调用工具、调用哪个工具、传什么参数。
• 内层 LLM：在管线内部，由工具自身发起 LLM API 调用做精细决策。比如 ringtone-forge 的 --tune 把”更带感”翻译成 rise=3, start_amp=0.65。

关键创新：v2.4 之前我以为 LLM 只在外层；做完才发现，双层 LLM 才是成熟形态。外层负责”何时触发 + 怎么解读”，内层负责”具体参数 + 失败自愈”。

Layer 2 · Skills（领域能力）

角色：可复用的专业经验包

Anthropic 在 2025 年 10 月发布了 Claude Skills^[3] —— 文件式的能力模块，每个 Skill 是一个文件夹，包含 SKILL.md（指令）+ 可选脚本 + 可选资源。

关键设计：Progressive disclosure。Claude 启动时只加载每个 Skill 的 metadata（名称 + 描述），只有当任务匹配时才加载完整内容。这意味着你可以装一万个 Skill，上下文窗口也不会爆。

ringtone-forge 的 SKILL.md 现在是 265 行，包含了：

• 4 个可调维度（rise / sustain / drop / start_amp）
• 11 条意图 → 参数的映射表
• 5 个对话示例
• LLM 后端选择指南

任何外部 Agent 看到这份文档，都能像专业音频工程师一样思考。

Layer 3 · MCP（工具协议）

角色：标准化的”USB-C for AI”

Model Context Protocol^[4] 是 Anthropic 2024 年 11 月开源的协议，把 AI 应用连接外部工具/数据/服务的方式标准化。

两年时间发生了什么：

• 2024-11: Anthropic 发布
• 2025: 被 OpenAI / Google / Microsoft / Salesforce 采纳
• 2025-12: 捐给 Linux Foundation
• 2026 早: 97M 月度下载、10000+ 服务器、行业事实标准

它的意义 类比就是 USB-C —— 在 USB-C 之前，每种设备都有独家接口；之后，”一根线连一切”。MCP 之前，每个 AI 工具都得自己写集成；之后，连一次写一次，所有 AI 都能用。

ringtone-forge 自己不直接用 MCP，但 ringtone-forge 运行在用 MCP 的环境里：上传 CDN 用 @upic MCP，同步飞书用 @lark-cli MCP，搜代码用 @builder-mcp。

Layer 4 · 神经网络（专业模型）

角色：确定性的专业计算

LLM 擅长模糊推理，但专业领域的精确计算还是要专业模型：

• 音频 → Demucs / Whisper
• 视觉 → SAM / YOLO
• 3D → Gaussian Splatting
• 代码 → CodeLlama / Codestral

ringtone-forge 用 Demucs（Hybrid Transformer，ICASSP 2023 SOTA）把音乐分离成 4 个 stems（鼓 / 贝斯 / 其他 / 人声）。为什么不让 LLM 做这件事？因为 LLM 不擅长”听音频”。让神经网络做它擅长的，让 LLM 做它擅长的。这个分工原则，在 4.0 范式里被反复印证。

Layer 5 · 工程底层（确定性执行）

角色：ffmpeg / 数据库 / API / 代码

Software 1.0 的代码并没有消失，而是变成了最底下的基石。

为什么？ 因为确定性 = 可测试 + 可回归 + 可复现。ringtone-forge 跑同一首歌应该总是给同样的输出 —— 这件事 LLM 做不到（输出有随机性）、神经网络做不到（不可解释），只有传统代码能保证。

工程层是 LLM 时代的”地心引力” —— 它定义了产品的下限。

这五层怎么协作？

回到那段 Brainiac_Maniac 的处理日志：

Layer 0  人：    "做铃声 --agent --tune '前奏短一点'"Layer 1  LLM：   外层 Cursor 触发；内层 Claude 看 SKILL.md 决定参数Layer 2  Skills: 11 条映射表里命中"前奏短" → rise=8sLayer 3  MCP：   暂未触发（这步可选）Layer 4  NN：    Demucs MPS 加速找出副歌位置 32.0s-62.0sLayer 5  Code：  ffmpeg 裁剪 + envelope filter + alimiter 防爆音↓Layer 5 → 4 → 3 → 2 → 1 → 0  ：返回 30 秒铃声 + verify 报告↓Layer 1  LLM：   报告说 3 项失败 → Claude 诊断 → 调整参数↓重新跑一遍 Layer 5 → 0：7/7 全过 ✓

这就是未来软件的样子。

来看 ringtone-forge 的具体映射：

每一层做一件不可替代的事。如果你试图让 LLM 做神经网络的工作（让 GPT 直接听音频找副歌），你会得到一个慢 100 倍且不可靠的产品。如果你试图让神经网络做 LLM 的工作（用 ML 模型决定”温柔”对应什么参数），你需要标注 10 万条数据。让对的层做对的事，是 4.0 范式的核心智慧。

🛠 四、Skills + MCP + Agents：Anthropic 三件套

五层范式里最容易混淆的是 Layer 1-3。Anthropic 给了一套清晰的概念：

类比一下：

• Skills = 脑 — 知道怎么做
• MCP = 手 — 能够触达
• Agents = 身 — 自主完成

举一个具体例子让你秒懂：写一个自动 Code Review 的 Agent

任务：每个 PR 自动 reviewSkills（脑）：  - team-coding-style.skill.md（团队代码规范）  - security-review.skill.md（安全检查清单）MCP（手）：  - GitHub MCP server（读 PR diff、写 comment）  - Brave Search MCP server（查 CVE 数据库）Agents（身）：  - pr-reviewer subagent（独立上下文、只读权限）  - 自主跑完整个流程，最后返回 review 评论

没有 Skills，subagent 不知道你团队的规范没有 MCP，subagent 摸不到 GitHub没有 Agents 抽象，主对话上下文会被海量 PR 数据淹没

三个一起用，每层做不可替代的事。这就是 Anthropic 在 2025-2026 推出的三件套，也是 4.0 范式的具体实现。

🌊 五、四维变革：开发、商业、工作、交互

五层范式不只是一个技术架构图。它同时改写了软件行业的四个维度。每一个维度都在以肉眼可见的速度变化，而且这些变化彼此咬合 —— 你不可能只接受其中一个。

5.1 开发模式：从「写代码」到「写 Skill」

旧范式的开发流程是确定的：需求 → 架构 → 任务 → 代码 → 测试 → 上线。每一步都有人做。

新范式的流程是这样的：

1. Spec 对话 — 你和 LLM 对话，把意图变成可执行的 spec（不是 PRD，是更结构化的输入）
2. 写 SKILL.md — 把领域经验外置化。不是写规范文档给人看，是写决策手册给 LLM 看
3. 选 / 写专业模型 — 需要 OCR 用 Tesseract、需要分离音源用 Demucs、需要分割图像用 SAM
4. Agent 写代码 — 70-90% 的代码 AI 写。人 review、push back、调方向
5. Verify Gate — 不只是单元测试，还有”LLM 看 verify 报告自愈”那种推理式验证
6. Agent 运维 — Pager 响了，先让 agent 看 metric、查 log、提建议；不够再喊人

这不是渐进改变，是阶跃。

Andrej Karpathy 在 2025 年 2 月造了一个词：Vibe Coding^[5] —— 用自然语言描述、看 AI 生成代码、不细看实现。这个词火了，但也被用滥了。2026 年 Forbes 的文章给出了更精确的概念：Vibe Engineering / Context Engineering^[6] —— 不是不读代码，是把工程师的角色从”编码者”变成”上下文设计者”。

✦ 核心洞察：未来代码会越写越多（Anthropic 90% AI 写已经是事实），但 写代码的人会越来越少。多出来的产能去哪了？去给 LLM 做更好的 SKILL、更准的 verify、更复杂的 orchestration 了。

5.2 商业模式：per-seat 已死，outcome-based 上来

Microsoft 365、Salesforce、Slack、Zoom……过去 20 年统治软件世界的 SaaS 商业模式，全部基于一个假设：每个用户一个账号。

这个假设被 AI Agent 一击击穿。

理由很简单：Agent 不需要账号。如果你的产品 5 个员工每人 250；现在他们 1 个人加 5 个 agent 同时干活，但只有 1 个人登录 —— 这 5 个 agent 凭什么不付费？

Editorialge 2026 年的报告^[7] 直接说：「per-seat 模式在 2026 年事实上已经死亡」。Forrester 同期说一样的话：“per-seat is being squeezed from both ends”。

那钱怎么收？三种新模式正在抢占主流：

模式	例子	适用
Per-Task	2 / 客服对话	大批量、单价低、易计量
Outcome-based	5000 / 落地工作流	单价高、价值可量化
Hybrid	Base 订阅 + 用量 + outcome 分成	大多数 SaaS 现在用这个

模式

例子

适用

Per-Task

2 / 客服对话

大批量、单价低、易计量

Outcome-based

5000 / 落地工作流

单价高、价值可量化

Hybrid

Base 订阅 + 用量 + outcome 分成

大多数 SaaS 现在用这个

真实数据：

• Cursor：2B ARR。靠的是按用量+订阅复合定价
• Cognition (Devin)：20
• AnyReach 报告：BPO 公司用 outcome-based 实现 200-300% ROI

✦ 核心洞察：如果你的 SaaS 还在按 seat 收费，你的同业可能已经在试水 outcome-based。每年同样收入，对方的客户增长更快、留存更高、续费率更稳。这场迁移已经开始，只是不一定在新闻头条上。

5.3 工作模式：从写代码到调度 Agent

这一节最敏感，但也最重要。

2020 年的工程师团队是正金字塔：少数架构师在顶端定方向，大量初级中级开发者在底部写代码。这是过去 60 年的常态。

2026 年起，金字塔在倒转。

数据已经在告诉我们这件事：

📊 70-90% 的代码在 Anthropic 内部由 AI 写📊 80% 在 OpenAI（Greg Brockman 公开承认）📊 84% 的开发者在用 AI 工具（Stack Overflow 2025）📊 70%+ 的软件 issues 由 AI 自主解决（12 个月前 < 20%）📊 Gartner：2028 前 90% 的工程师有 AI 助手📊 Fed NY 2025：CS 毕业生失业率 6.1-7.5%，是生物 / 艺术史毕业生的 2 倍

最后一个数据点最值得警觉。它在告诉我们：AI 对开发者的冲击不是”未来”，是”现在”。最先被冲击的不是高级工程师，是写第一行代码的初学者 —— 因为他们做的事，AI 做得最快、最便宜。

但工程师总数仍在增长（BLS 预测 2033 年前 +17.9%，是平均岗位增速的 5 倍）。这意味着：总盘子在涨，但分布在变。

新分布的金字塔顶端是这些角色：

• Spec / Skill 设计师 — 把意图、流程、领域知识写成 LLM 能消费的格式
• Agent Orchestrator — 编排多个 agent 协作完成复杂任务
• Verifier / 领域专家 — 用专业判断验证 agent 的输出
• Code Reviewer — 不写代码，但要看懂 AI 写的代码
• Coder（少数） — 仍然有人写底层、写关键路径、写 agent 都搞不定的部分

✦ 核心洞察：如果你今天还在以”打字快、记得多 API”为竞争力，未来 3 年会很被动。如果你以”理解业务、设计流程、判断质量”为竞争力，未来 10 年会越来越值钱。Karpathy 说，”This is the Decade of Agents” —— 那意味着这十年最稀缺的，是会”调度智能”的人。

5.4 交互模式：从 GUI 到 Agent-native

最后一个维度：你的产品给谁用？

过去 30 年的产品哲学：Build for Humans。漂亮的 UI、流畅的动效、好用的快捷键。

Karpathy 在他的演讲里指出，现在有第三类消费者出现了：

1. Humans  →  GUI（Graphical User Interface）2. Computers → APIs3. Agents   →  ???（agent-native interface）  ← NEW

Agents 不是人也不是程序。它们像人一样要读文档（不能直接读你的数据库），像程序一样不耐烦（不会等你 hover 鼠标）。它们读你的网页、解析你的 API、试错你的 SDK。

这意味着工具开发者要做一件新事：为 agent 设计接口。

• ❌ 你的文档全靠 hover 提示？agent 看不懂
• ❌ 你的 API 错误信息只有 “400 Bad Request”？agent 没法 retry
• ❌ 你的功能藏在三层菜单里只有快捷键能开？agent 找不到

最简单的开始： 在你的网站根目录放一个 llms.txt。这是给 LLM 看的”网站地图”。

更深的实现 Every.to 提出过一个原则^[8]，叫 Parity：

“Whatever the user can do through the UI, the agent should be able to achieve through tools.”

UI 能做的，agent 都能做。这个原则一旦认真执行，会重新定义你产品的所有功能边界。

✦ 核心洞察：如果你的 SaaS 没有 agent-native API，过两年你的客户会用「经过竞品 agent 化的产品」。这不是替代，是新增长 —— 谁先支持 agent，谁先吃到 agent 经济的红利。

🛡 六、反思与边界：什么不会被 LLM 化

读到这里你可能觉得我在过度乐观。所以这一节专门讲 LLM 不能做什么、不该做什么。

6.1 Iron Man Suit：放大不是替代

Karpathy 在演讲里反复用了一个比喻：Iron Man 的钢铁侠战衣。

战衣给 Tony Stark 两件东西：

• Augmentation — 力量、传感器、信息（人能力的放大）
• Autonomy — 战衣有时会自己动（独立的判断）

但 Tony 始终是穿着战衣的人，不是被战衣替代的人。

LLM 也是这样。它的最佳形态是放大人，不是替代人。 那些试图把人完全踢出循环的产品（”完全自主 agent”、”无人化客服”），普遍效果差，因为 LLM 有它的”参差性”。

OpenAI 前 CTO Mira Murati 在 Wired 最近的访谈^[9] 里说：

“At some point we will have super-intelligent machines. But we think the best way to actually have many possible futures—good futures—is to keep humans in the loop for as long as possible.”

留住人。在循环里留住人，越久越好。 这是行业里最清醒的声音。

6.2 Demo-Product Gap：works.any() ≠ works.all()

Karpathy 的另一个金句：

“Demo is works.any(), product is works.all().”

意思是：演示只要任何一次能跑通就行；产品要每一次都跑通。 中间的差距，是过去 5 年所有 AI 公司从 demo 到 product 走过的最难一段路。

Tesla 自动驾驶就是经典案例：2014 年 Karpathy 坐过一次 demo（零人工干预），那时大家以为自动驾驶就要量产了。实际花了 10+ 年才到 L4。

ringtone-forge –agent 也跑过失败案例。同一首歌，跑 10 次有 1 次 LLM 给出了不合理的参数（rise=20s，铃声前 2/3 都是渐入）。这就是为什么 --max-retries 3 之外，最终 verify 失败的话，工具会退化到默认参数。

✦ 设计原则：永远给 LLM 一个 fallback。永远给人一个 escape hatch。Demo 阶段炫技，product 阶段稳定。

6.3 Jagged Intelligence：参差的智能

Karpathy 还造了一个词，叫 “Jagged Intelligence” —— 参差的智能。意思是 LLM 在不同任务上的能力像锯齿一样不均匀：

• ✓ 解奥数题：能拿 90 分
• ✗ 比大小：”9.11 比 9.9 大”（错）

“Some things work extremely well (by human standards) while some things fail catastrophically (again by human standards).”

人类的能力是渐进的：会识字的人通常会算简单加减；会算微积分的人通常能写人话。LLM 不是这样 —— 它在某些维度超越博士，在另一些维度低于小学生。

这意味着：你不能像信任同事一样信任 LLM。你要把它当成「有时是博士、有时是醉汉的同事」，给它配 verify gate、给它配 fallback、给它的关键决策配人审核。

6.4 Anterograde Amnesia：失忆症

LLM 的另一个固有缺陷：没有长期记忆。每次对话都是新的，上下文窗口一关，全忘。

Karpathy 把这比作电影《记忆碎片》(Memento)^[10] 的主角 —— 短期记忆完整、长期记忆被切断。

这意味着两件事：

1. 关键信息要外置化 —— 写 SKILL.md，写 docs，写 CLAUDE.md。不要指望 LLM “记住”
2. 复杂任务要工程化 —— 长流程拆成短步骤，每步独立可恢复

这也是为什么 Anthropic 的 Skills 设计是 progressive disclosure —— Claude 只先看 metadata，关键时才看完整内容。这是给”失忆症患者”开的药方。

🎯 七、实战指引：今天能做的 5 件事

读到这里，你可能想问：「好，那我今天能做什么？」

我把过去一周做 ringtone-forge v2.4 学到的，浓缩成 5 条具体动作。任何角色都能从今天开始做。

1️⃣ Skill-first 思维

改变：先写 SKILL.md，再写代码。

每次开始新功能 / 新任务，先问自己：「如果让一个外部 LLM 替我执行这件事，它需要知道什么？」把这些写下来，就是你的 SKILL.md。

它会强迫你：

• 把”隐性经验”显性化
• 把决策规则结构化
• 把意图 → 参数的映射写清楚

结果：你的代码会更清楚（因为你想清楚了），你的 LLM 会更好用（因为有了可消费的上下文）。

实操：去 github.com/anthropics/skills^[3] 看官方 skills 怎么写的。

2️⃣ 把”专业经验”externalize 给 LLM

改变：不要把工程师的判断锁在脑子里。

ringtone-forge 的 verify 模块原来是规则引擎：”如果 RMS@29.7s^[11] 大于 -40 dB 就 fail”。v2.4 做了什么？让 LLM 看 verify 报告，自己想办法修。

这件事的精髓不是”把规则换成 LLM”，是把工程师在 oncall 时做的诊断推理外置到 LLM：

原来：人 oncall + 规则引擎检测 → 出问题人来调现在：规则引擎检测 → LLM 当一线 oncall → 修不好再升级到人

效果：把工程师的”工程经验”变成可复用的”软件资产”。

3️⃣ 多层 verify gate

改变：从”通过/失败”二元判断，变成”多层渐进验证”。

Layer 1: 基础规则检测（duration / format / size）Layer 2: 启发式质量检测（RMS / peak / LUFS）Layer 3: LLM 推理式验证（"这段听起来像副歌吗？"）Layer 4: 人最终验收（重要发布的最终守门）

关键：不要让 LLM 替代规则、也不要让规则替代 LLM。叠在一起，互相补充。

4️⃣ 给你的产品加 Agent-native API

改变：从”为人设计”扩展到”为 agent 设计”。

最低成本：根目录放 llms.txt。这是给 LLM 看的网站地图，告诉它你的服务是什么、有哪些核心 endpoint、文档在哪。

中等成本：写 MCP server。让你的 SaaS 能被 Cursor / Kiro / Claude Code 直接调用。这个事 Anthropic、OpenAI、Cursor 都在大力推 —— 跟着趋势做。

高成本：做 Parity。每个 UI 功能都暴露成 agent 可调用的 tool。这是大改造，但回报极高 —— 你的客户会发现，他们的 agent 流程开始离不开你。

5️⃣ 重新审视你的商业模式

改变：哪怕你今天还是 per-seat，也至少在某个产品线试 outcome-based。

最小尝试：选一个高价值场景（比如客服转化、销售线索、文档处理），加一个 outcome-based 的定价档位。让客户选。

预期发现：愿意按 outcome 付费的客户，单价会更高、留存会更稳、续费会更顺。原因很简单 —— 他们买的是结果，不是工具。

✦ 关于这 5 条：你不需要全做。但如果一条都没做，你大概率正在被范式转换甩开。先做 1️⃣ —— 它最便宜，也最改变思维方式。

🔮 八、未来 5 年图景

把所有线索汇总，我画了一条时间线：

2026（现在）—— 这些已经发生：

• Anthropic 70-90% 代码 AI 写（CEO 公开承认）
• MCP 10000+ servers，已捐给 Linux Foundation
• Cursor 10.2B
• Claude Skills / Agent Teams 上线
• per-seat 模式开始崩塌

2027（近期）—— 这些即将到来：

• 每个主流 SaaS 标配 agent-native API
• per-seat 定价彻底退出（变成可选项）
• llms.txt 成为公司官网新标配
• 出现类似 npm 的 Skill marketplace

2028（中期）—— Gartner 已预测：

• 90% 软件工程师有 AI 助手
• Junior dev 岗位减半，Spec 设计师崛起
• 大多数初创公司从 day 1 就 agent-native
• 投资估值彻底按 outcome 算

2030（远期）—— Karpathy 推测：

• 软件不再”写”而是”长”出来
• 多 agent 协作 = 默认开发模式
• 组织扁平化（每个人 = 调度员）
• 全社会进入「agent-first」时代

✦ 一句话总结：未来 5 年最重要的能力 = 把「专业经验」抽象成 Skill，让 LLM 调度其他 LLM、模型、API、人协同完成工作。

🎵 九、回到那首歌的 30 秒

写到这里我想回到开头那首歌。

ringtone-forge 不是个特殊案例。任何 AI 落地应用都会经历：

1. 工程层做工具（Software 1.0）
2. 加神经网络做计算（Software 2.0）
3. 加 LLM 做决策（Software 3.0）
4. 加 Skills 做复用（Software 4.0 第一步）
5. 加 MCP 做连接（Software 4.0 第二步）

这就是 Software 4.0 的样子。它不只是技术变革，是整个行业的重新洗牌：

• 开发者：你的代码会被 agent 写
• 创业者：你的 SaaS 商业模式会被重构
• 产品经理：你的用户可能是 agent
• 投资人：估值逻辑被颠覆（Cursor 12 个月 12x）
• 从业者：你的角色金字塔位置会上移

5 年后回头看，可能会发现：那个 30 秒铃声工具，是你看见未来的第一扇窗户。

不是因为它特别 —— 而是因为它普通。它做的事情简单到不能再简单（找副歌 + 切片），但它的范式适用于所有 AI 落地应用。

每一个值得做的产品都有一段「Brainiac_Maniac 时刻」—— 你的工具第一次失败、LLM 看着失败报告说「这样改」、改完之后真的成了。

那一刻，不是工具变得更智能。是「智能」第一次进入了你的工程链路。

📚 参考资料

核心来源

1. Andrej Karpathy: Software Is Changing (Again)^[2] — YC AI Startup School 2025 演讲
2. Verdent: Skills vs MCP vs Agents^[12] — 三层架构权威解读
3. Every.to: Agent-Native Architectures^[8] — Parity 原则
4. Anthropic Skills 官方仓库^[3] — Skill 标准实现

数据来源

5. CIO: AI coding agents^[13] — Anthropic 70-90% 代码 AI 写
6. Forbes: Software Engineering Cooked?^[14] — Fed NY 失业率数据
7. Editorialge: Per-seat is Dead^[7] — 商业模式变革
8. Bessemer: AI Pricing Playbook^[15] — Outcome-based 实战
9. Forrester: AI Workforce^[6] — Vibe Engineering

实战项目

10. ringtone-forge^[1] — 我的项目，本文的灵感起点（MIT 开源）
11. Model Context Protocol^[4] — MCP 官方文档
12. Claude Skills GitHub^[3] — 67k stars 学习资源

💬 互动时间：

✦ 你的产品 / 团队 / 工作流，目前在 Software 几点几？✦ 你认同「五层范式」的拆解吗？还是你觉得有更好的切分？✦ 你最焦虑的是「写代码岗位」还是最兴奋的是「Spec 设计岗位」？✦ 如果只能从 5 条实战指引里选 1 条做，你会选哪条？为什么？

如果这篇有帮助，点个”在看” + 转发给写代码的同学、做产品的同事、做投资的朋友 —— 这是关于未来 10 年的事，值得讨论。

也欢迎来 GitHub 看看 ringtone-forge：https://github.com/neosun100/ringtone-forge ⭐

👆 扫码关注 AI健自习室，深入学习 AI / Crypto / 工程实践

这篇文章是我从一个 30 秒铃声工具里看见的未来。5 年后再看，可能会发现：原来那时候已经全都开始了。愿你也找到属于自己的「Brainiac_Maniac 时刻」。

引用链接

[1] ringtone-forge: https://github.com/neosun100/ringtone-forge[2] “Software Is Changing (Again)”: https://www.latent.space/p/s3[3] Claude Skills: https://github.com/anthropics/skills[4] Model Context Protocol: https://docs.anthropic.com/en/docs/agents-and-tools/mcp[5] **Vibe Coding**: https://en.wikipedia.org/wiki/Vibe_coding[6] **Vibe Engineering / Context Engineering**: https://www.forbes.com/sites/forrester/2026/02/02/ai-doesnt-replace-the-development-workforce—it-changes-it/[7] Editorialge 2026 年的报告: https://editorialge.com/saas/[8] Every.to 提出过一个原则: https://every.to/guides/agent-native[9] Wired 最近的访谈: https://www.wired.com/story/mira-murati-humans-in-the-loop-ai-models-thinking-machines/[10] 《记忆碎片》(Memento): https://en.wikipedia.org/wiki/Memento_(film)[11] RMS@29.7s: mailto:RMS@29.7s[12] Verdent: Skills vs MCP vs Agents: https://www.verdent.ai/guides/claude-skills-vs-mcp-agents-comparison[13] CIO: AI coding agents: https://www.cio.com/article/4166029/the-570k-canary-what-ai-coding-agents-reveal-about-enterprise-ais-real-gaps.html[14] Forbes: Software Engineering Cooked?: https://www.forbes.com/sites/timkeary/2026/04/27/is-software-engineering-cooked-the-future-of-development-post-ai/[15] Bessemer: AI Pricing Playbook: https://www.bvp.com/atlas/the-ai-pricing-and-monetization-playbook