奇点思考:Agent重塑软件与互联网产业新范式
大家好!今年我们把成立于2017年的全球机器学习技术大会品牌升级为“奇点智能技术大会”。“奇点 Singularity”这个词也反映了我们对于AI发展的愿景和看法。去年大家对于奇点还有很多争论。今年,AI奔向奇点的加速度给我们带来的“推背感”,相信大家深有感触。我今天分享的主题是《Agent重塑软件与互联网产业新范式》。

Agentic Scaling及其上限
这幅图展示了AI发展的底层驱动力:Scaling Law 缩放法则,正在进入第四阶段,所谓Agentic Scaling。

在此之前,2022年~2024年9月,模型主要是预训练和后训练Scaling,核心是“会说话”的训练模型;之后以2024年9月OpenAI O1和2025年1月的DeepSeek R1为标志,模型进入强化学习驱动的Test Time Scaling,核心是“会思考”的推理模型;从2025年底到当前,以Claude Opus 4.6为代表的模型和Claude Code 为代表的Harness Engineering将缩放法则推到Agentic Scaling,核心是“会干活”的智能体模型。

Agentic Scaling 有三个核心扩展维度:Agent的协作数量,时间跨度,迭代深度。从而来支持Agent 多步骤、跨系统、自主的闭环执行任务。 从当前现状来看, Agentic Scaling 还有很高上限,从而支持越来越复杂的任务: 1)、Agent 协作的数量正在从个位数,向十位数/百位数迈进,未来甚至会出现上千上万的Agent协作,就像人类很多复杂的软件项目也有几千人甚至上万人的团队;2)、当前Agent的运行时长主要在分钟级到几小时,接下来有望向天级、月级突破。 3)、Agent的迭代深度也从个位数,在向十位/百位数迈进。

从这些维度来看,今天看起来Agent无法完成的复杂任务,可能过一段时间就可以完成了。Agentic Scaling带给我们的“推背感”还会持续。很多老派专家很容易低估Agent的能力,是因为忽视了Agentic Scaling的上限。 大家也看到了,昨晚Claude又发布了Opus 4.7, 其在多步编程任务、长程工具调用、多 Agent 协调方面又达到一个新的高度。
最近OpenClaw龙虾的热潮,实际上是Agent Scaling 的具象化,大众层面第一次对 Agent 有了一个触感。其实我在2024年产品经理大会,谈过很多关于 Agent 当时的预判和畅想。和今年龙虾的表现惊人的一致。
Agent 重构软件产业:双轮颠覆
接下来我想首先谈谈Agent对软件产业的重构。这里分两个部分,每一代的技术变革,对软件都是一种双轮颠覆效应。首先,它会改变软件的应用形态,所谓 Do What;其次,它会改变软件的开发方式,所谓 How Do。你做的事本身在变,你做事的方式也在变。
如果我们看历史周期,比如互联网时代,当时软件面临着从桌面软件到 Web 软件的形态转变。但很快,开发方式也被互联网改变为Cloud Native 的方式,比如微服务、DevOps 这些。

AI 来了之后,它也产生了两个层面的颠覆。一方面我们做的软件形态在快速变化,从传统的软件/App 形态,改变为 AI Agent智能体。同时我们的开发方式也在快速被 Agent 所颠覆,从人机协同到Agent全面的主导,所谓AI原生软件开发AI Native的新范式。这个双轮驱动对我们整个软件产业影响非常大。
Agent 改变软件的应用形态,我觉得核心有三点分享。首先是交互的替代。大家用龙虾应该有很强烈的感受,我们的第一交互界面已经变成 Agent。其次、很多软件被下游化,藏在龙虾背后,成为被龙虾等Agent调用的工具。甚至有些时候,龙虾可以直接去写一些代码,即时生成软件来服务我们的一些需求。最后,这会带来软件设计的重构,我们可能今后更多地为Agent设计软件,而非为人类设计软件。
我上个月在硅谷 英伟达GTC大会交流期间,有个非常强烈的感受。咱们国内叫“百虾大战“,硅谷没有“百虾大战”,但硅谷的很多创业公司在为龙虾做 Infra,做基础设施,丰富龙虾的生态。因为龙虾或者Agent的能力要进行扩展,中间有很多软件工具/基础设施的需求。
数字空间的 Agent,最友好的接口形态是 CLI 这种命令行的方式,而不是传统对人类更友好的 GUI图形用户界面。虽然用 Computer Use 也能模拟人类点击,但我始终觉得模拟人类点击操作,就像去年豆包手机那种形态,在数字空间是一个伪交互,是个过渡形态。未来更好的是直接把所有工具链 Design for Agent,用Agent 更友好的 CUI 或者 MCP 的方式来设计。
为 Agent 而非为人类设计软件,将极大地改变软件的范式。这里面有三个关键点。

第一个是工具。我们要打造 Agent 整个执行链路上各种工具。传统工具在 Agent 调用时有很多卡点和交互的堵点,这需要我们去解决。第二个是技能,所谓Skils,为特定任务定制的岗位说明书、SOP 和一些工具包。第三个是环境。Agent 要完成任务,必须在特定系统中,赋予一定的权限。所以我们要打造合适的云侧或端侧上的环境,分配合适的权限。
即时软件和柔性软件
在 Agent 重构软件的过程中,我们看到软件形态有一个非常深刻的变化。这里我提了一个新的软件类型,叫即时软件(Instant Software)。上个月我在硅谷交流的时候提起这个概念,也引起很多的讨论。

这里有一个软件光谱。最右边的是即时软件(Instant Software),它的特点是:即时生成,即用即抛。就为这次任务而生,而很多时候是 Agent 在背后写。
传统软件(Traditional Software)在最左边,是我们很多软件人所熟悉的。传统软件的第一性原理是复用性。传统软件的所有工程理论、设计理论,包括架构设计、松耦合、设计模式等等,核心的第一性都是追求软件的“复用性”。为什么?因为传统软件生产成本太昂贵了。世界上最贵的就是程序员了。所以“标准化”和“复用性”就成了传统软件非常核心的命题。
但是 Agentic Coding来了之后,Agent 写软件的代价越来越便宜。这是之所以产生即时软件的底层逻辑。初听这个概念大家可能会有点惊讶,觉得这种写出来的软件很粗糙,很不符合传统软件工程的规范。
在传统软件和即时软件的交叉地带,还有一类,我们把它叫柔性软件(Elastic Software)。柔性软件是在基座软件上,有传统软件的稳定性、可靠性的要求。但在适应性方面,应对用户需求的快速变化,通过Agent即时地生成软件,又实现了柔性的扩展。
在下面的表格里,我们从多个维度对比了从传统软件(Traditional Software)到柔性软件(Elastic Software),再到 即时软件(Instant Software)变化的光谱。

大家先看左边的传统软件(Traditional Software),因为追求复用性,其复用形式是稳定的源码、二进制的形式。仍然遵循传统软件生命周期的严格规范。在 AI赋能软件研发方面,需要比较强的 Spec 驱动的方式。
我们再看右边的即时软件(Instant Software)。它就是 Skills 化后、由Agent 生成的软件。它的整个软件工程理论,其实是要抛弃掉传统软件生命周期的理论。包括架构设计、需求分析、质量测试都不再是传统那套理论体系。需要指出的是,并不是不要软件工程了,而是要构建一套新的运行态、面向Agent的即时软件工程体系,这是我觉得软件工程领域接下来要研究的大课题。我相信针对 即时软件(Instant Software)的运行态的软件工程体系,尤其是由 AI 自闭环来构建的这套体系,比如安全怎么做、质量怎么做、性能怎么做,会是完全不一样的工程范式。
中间是我们讲的柔性软件(Elastic Software),是在稳定源码和二进制的基础上加了Agent使能的Skills。它的开发态仍然由SDLC软件工程体系,而运行态则由Agent为主的工程体系。
三种软件的区分,有一个观察点是“能力绑定时机”。传统软件的能力绑定时机,在开发态已经完成所有功能定义,运行态遵循开发态定义的所有确定性规则;而即时软件的能力绑定时机,完全发生在运行态,基于任务上下文和Skills,Agent来动态生成并运行;柔性软件的开发态和运行态是一个组合形式,在开发态定义稳定、高确定性的核心能力,而在运行态定义高变化、上下文依赖能力,然后由Agent动态生成。
我知道有些习惯于古法编程的传统软件人还是觉得即时软件这种东西不靠谱。比如很多老专家看OpenClaw龙虾的代码,就觉得很不符合传统软件的规范,不符合所谓好代码的标准。但我也特别想提醒的是,历史上出现了很多颠覆式创新,刚开始都是主流人士看不上、看不起,到最后看不懂。很多颠覆式创新都是从这种边缘地带开始的创新,这类创新有三个特点:第一个叫 Massive 大规模,第二个是Personalized个性化 ,第三个是低成本 Low Cost。

我举个例子。大家如果经历过 PC 到互联网周期,我记得大概 1995年–2000 年的时候,很多传统软件人看不上写 HTML 页面的,觉得这怎么能叫程序员。当时很多都是草根站长或者脚本程序员在写,写脚本大家不觉得那是在写软件。但是后来的历史周期告诉我们,Web 软件,以 HTML/CSS/JS为主构成的 Web 软件,是人类历史上最大的软件规模体系。整个Web软件的产值和用户量远在传统桌面之上。Web 软件实现了对传统桌面软件的边缘创新、颠覆式创新。
我们再看一个例子,抖音。我相信在2015 年,很多好莱坞的电影导演、中国顶级的电影工作室看到抖音,第一个反应是觉得这东西不专业,质量也很差,手机摄像头也不清楚,随便拍的东西。但是短视频进化到今天大家都知道,TikTok +抖音的价值应该能把中国绝大多数电影公司和电视台给买下来。抖音这样一种短视频形态,也非常符合刚才讲的颠覆式创新的三个特点:大规模 Massive,它的产量极大,你一年拍十部电影,它一天能生产几万条。个性化Personalized,他/她拍的这个短片,可能就是给同桌、给邻居、给周围的几个朋友看的。低成本Low Cost,手机摄像头、拍摄近乎免费。
同样的,我们今天讲的即时软件,由Agent 生成的软件,或者普通人用自然语言的方式写的软件。它也符合这三个特点。 个性化Personalized:他可能就是写给同桌、邻居、周围几个朋友。不是像 Adobe、像 Microsoft 一样写给全球亿万用户的大规模标准化软件。而且它 低成本Low Cost:今天的 Agent 使得我们能够以极低的成本去写软件。大规模Massive,即时软件的产量会在未来几年,爆炸式增长。
颠覆式创新的特征,每一代最开始都是从极其边缘、主流人士看不上的地带,不断以大规模、个性化、低成本的方式蔓延业界。我非常提醒我们要注意 AI 对软件的颠覆式创新,尤其是即时软件到柔性软件这个新品类。
AI 原生软件研发成熟度模型 AISMM
刚才说的是软件形态的变化,接下来我们谈谈软件开发方式的变化。所谓How Do 层面,从最开始的 AI Copilot,到现在的 Agentic Coding,开发范式也在快速变化。

去年 10 月份,我们奇点智能研究院发布了AI 原生软件研发成熟度模型AISMM的报告。引起了行业很多人的关注。它是基于奇点智能研究院的技术专家,和很多行业客户合作、业界研讨交流的经验和最佳实践。今天我也很高兴宣布,我们在本次大会上正式发布《AI 原生软件研发成熟度模型 AISMM》的白皮书,白皮书也反映了我们最近的研究成果。

这个白皮书也送到了大会现场。感兴趣的朋友,可以在展台领取。这也是给参会听众的一份福利。白皮书里有包括我刚才讲的即时软件、柔性软件等详细的阐述,和工程方面的经验思考与总结。

AISMM成熟度模型将AI软件研发按照成熟度划分为五个阶段:L1 辅助提效 AI Assisted,其主要还是借助AI工具,个体潜能的释放;L2领域集成Domain Integrated是通过领域知识的集成,比如RAG等,建立组织级智能;L3 Agent 协同 Agentic Synergy,核心是人机协同(即工程师和Agent的协同);L4自主智能体 Autonomous Agents,强调Agent的自主闭环完成任务;L5自进化工厂Self-Evolving Factory,支持Agent的自进化和创新,是一个较理想的阶段。目前在AI软件研发上跑的比较快的的企业大概在 Level 3 到 Level 4 的进化阶段。部分企业仍然停留在L1~L2阶段。

谈谈L3到L4最核心的变化。去年大家讲的还是 Human in the loop,就是人机协同、人和 Agent 协同。今年业界,尤其是走在前面的公司,一直在尝试 Human out of the loop,就是人在闭环之外。人已经变成 Agent 协同协作、闭环完成任务的一个摩擦和阻力了。大家知道,组织里面人与人之间的摩擦和沟通成本是极高的,而 Agent 只要订好契约、摩擦成本是极低的。所以这是一个非常大的变化,对很多传统研发组织是一个挑战。

前不久在硅谷交流时,很多一线工程师或者 Researcher 都有一种恐慌感。在做 AI 的过程中,也发现AI 越来越能把编码工作、开发工作、甚至研究工作逐步替代,这个比例越来越高。
Harness Engineering 驾驭工程
AI软件研发的工程范式上也面临着变化。23年当时提倡的是 Prompt Engineering。 24 年底到 25 年,业界主流在提倡 Context Engineering上下文工程。到今年,我们更多在提倡驾驭工程,所谓Harness Engineering 所谓驾驭工程。

Harness 的核心是什么?就是因为 Agent 要在系统里面完成任务,所以它的安全、协作、工具调用的体系、闭环的反馈路径都要完备。这是 Harness 的关键。
Harness Engineering有三个要点分享一下:第一个层次是“知道”,上下文、记忆、Skills 等等。第二个层次叫“行动”,让它具有行为能力,包括工具、基础设施、沙箱环境、编排和协调等。第三个是“反馈”,要形成完成任务的能力,需要具有评估任务、调试修正、追踪和可观测的能力。这是构成 Harness 工程最核心的三部曲。

Harness Engineering也在快速演进,以OpenClaw为例,主要是人工编排的Harness 工程;最近比较火的Hermes Agent,引入了AI辅助来做Harness工程;包括AutoHarness等的研究也在探讨完全由AI来自主完成Harness工程。 这也是L3 Agent 协同到L4自主智能体的工程驱动力。
在AISMM成熟度模型里面,我们还列了五个要素。刚才大家看那个大表,五纵五横。横的是五个阶段,纵向的是五个要素,分别是基础设施、知识工程、流程工具、组织人才和治理安全。这五要素和五个阶段,在AISMM白皮书里有非常详细的解释,时间关系我就不详细展开了。每一块都有我们奇点智能研究院的专家团队总结提炼的工程上的最佳实践和配套的流程方法。

Agent重构互联网的底层逻辑
接下来我想谈谈 Agent 重构互联网。严格意义上,互联网也属于软件的一个品类,但是互联网和传统软件在范式特征上还是有些不同,所以我在这里作为两个话题来谈。
最早大家说 AI 颠覆互联网,2023年ChatGPT出来后一直有这样的提法。但走到今天我们看,似乎 AI 对互联网某些部分颠覆的速度很快,但对某些部分颠覆速度很慢。举例来说,不管是抖音、YouTube,还是微信等社交软件,它的用户时长和广告收入并没有下降。AI 对消费互联网的颠覆没有预想的那么快。这背后是 互联网和人工智能在底层逻辑的差异。

互联网的核心是连接范式,它解决的是信息匹配的问题,改变的是生产关系。而 AI 的核心是计算范式,它解决的是智能的供给,改变的是生产力。从技术周期上来讲,AI 其实更像当年 IBM 大型机、小型机那波计算机革命浪潮。当时革命的主要对象是生产力,是企业提效,而非消费端。
硅谷的很多公司今天已经不讲什么 PV、UV、DAU 了,这都是互联网时代的指标体系。AI的指标体系是 Token,算力,Size参数大小。Token 变成了最核心的衡量指标。大家知道最近 OpenAI和Anthropic的估值变化能体现出来。ChatGPT的周活用户9亿多,而Claude的月活大概不到1/20。但Anthropic最近的ARR年化收入 已经达300亿美金,超过了OpenAI的250 亿美金ARR。 为什么?因为 Claude 围绕的是以生产力提效为主,而构建的编码、Agent能力,其Token消耗量在恐怖地增长,远超以对话聊天为主的Token消耗量。
我在2023年曾经提出过科技产品创新范式的一个模型:“范式转换立方体ParaShift Cube”。它描绘了三个轴:X 轴是技术轴,Y 轴是需求轴,Z 轴是模态轴。互联网、人工智能的整个技术周期,都可以放在这个三轴里面找到坐标位置。三轴交错的地方就是创新发生的领域。 这也是在王兴 2009 年提出的著名的“四纵三横”的基础上发展的,“四纵三横”是一个二维结构。“范式转换立方体”是一个三维结构。

内啡肽赛道 VS. 多巴胺赛道
目前的技术轴当然是AI,模态轴还是以语言模型、也就是文字为主。 那么需求轴呢? 需求赛道里有很多的板块,我这里把它们分在两个大的赛道里。左边叫内啡肽赛道,右边叫多巴胺赛道。
做运动的人都知道,内啡肽的快乐是你努力完成了某一项艰苦的事情,之后取得成就感,这个时候是内啡肽的愉悦。而多巴胺的愉悦就是人类的各种贪、嗔、痴,就是娱乐赛道。

我们看内啡肽赛道,AI 的颠覆非常快。包括生产力(特别是AI Coding、办公)、搜索、信息等需求,AI智商很高,最擅长在这个赛道下,提升生产效率,帮助用户Save Time。但在右边的多巴胺赛道下,包括娱乐、社交、电商等, 颠覆比较慢。为什么?大模型情商很低,严格来说没有人类真实的情商。并不擅长帮助用户Kill time,对话应用的用户停留时长都很短。
包括最近OpenAI将Sora 应用关闭,也是因为按照互联网应用产品的标准, Sora的DAU、用户时长非常糟糕。现阶段的 AI 不适合用来做多巴胺类的产品,而适合做内啡肽类的产品。当然未来也会有变化。因为人类的多巴胺分泌很大程度上与看到的内容产品有关系。所以随着多模态的发展, AIGC 不断降低创作门槛,去创造让人类更愉悦的内容产品仍然有机会。但它的颠覆速度要比目前讲的生产力颠覆速度慢很多,可能要等到下一个周期。就像抖音也不是随着移动互联网(以2007年iPhone发布为标志)立即出现的,而是直到2016年才出现的。
2024 年 9 月我在全球产品经理大会上提出,Agent 会把互联网从信息网络重构为行动网络。当时很多朋友觉得:“建忠,你脑洞太大了,想得太远了。” 为什么有那样的判断,因为 24 年 9 月份 OpenAI o1 出来,o1 当时的推理能力已经带来了很多 Agent 能力的显著变化。从去年Manus到今年的OpenClaw,大家显著地感受到了,Agent 带来的行动网络,把互联网从传统信息网络迭代为行动网络的超强能力。

这样的重构背后,会带来很多互联网基础设施的板块性移动。并不是说传统软件不存在了,或者传统互联网服务不存在了。而是它们要适应Agent带来的新生态,这里面会分两类:第一类,需要结构化数据 和确定性计算的,会通过CLI或者MCP等工具协议变成被Agent平台调用的服务接口,比如传统的外卖、旅游、打车、导航等服务,未来都应该变成被 Agent 调用的接口。
第二类,需要的是自然语言和推理服务,会变成一个一个Agent,通过A2A等Agent会话协议被Agent平台所调用,形成一个Agent协作网络。例如教育、法律、医疗、咨询等会变成这样的Agent。

虽然今天因为产业生态的竞合关系,大家还没有向 Agent 开放这样的服务接口,使得 Agent 在做订房、订票、订车、外卖等任务时,还有很多卡点和堵点。我个人觉得去年豆包手机的模拟人类点击的方式是伪AI交互,是一个过渡形态,更友好的方式还是给Agent提供服务接口。如果我们看到 Agent 对互联网从信息网络到行动网络的巨大范式转移效应、包括自然语言带来的人机交互的变化,我相信整个互联网生态会逐步走向那一天,会围绕 Agent 去构建服务体系和接口体系。换句话说,当用户逐步切换到以Agent为主的交互界面上之后,传统服务的用户留存和流量就会发生结构性转移,Tipping Point 就会发生。
2026 AI产业变革的十二大趋势
最后,我们在《AI 原生软件研发成熟度模型AISMM》白皮书里也提出了我们针对2026 年 AI 产业变革的十二大前沿趋势。这也是奇点智能研究院的专家团队和业界很多专家一起研讨交流提炼而得。时间关系我就快速给大家过一下,在白皮书里有非常详细的解释。
我们将这些趋势分为三大类:分别为应用范式、开发范式、计算范式。应用范式。应用范式的核心是:自然语言交互重塑软件新形态。我分列了四大趋势。

趋势一:Agent 会成为用户交互的第一入口,传统软件会下游化,人类使用传统软件的机会越来越少,软件主要被 Agent 所调用。
趋势二:生成式的用户界面(GenUI)为用户提供更个性化的体验。未来不再是传统的导航、菜单、表单、按钮这种上个时代的 GUI 界面体系,下个时代会迎来非常个性化、跨应用的新型 AI 生成界面,即时根据需求、任务和结果特点来生成个性化的界面。
趋势三:Agent 会将互联网从信息网络迭代为行动网络。互联网的基础设施将为Agent而设计。
趋势四:自然语言交互和 Agent 网络组合在一起,为各种各样的多元设备——手表、眼镜、手机、汽车、智能穿戴设备等—— 提供一个流畅、统一的、以自然语言交互为主的新型人机交互界面。和用户直接交互的可能有若干个超级 Agent,它们会将任务分发给多Agent网络或者传统互联网服务,这也是巨头必争之地。
接下来是开发范式,刚才演讲里谈得比较多。开发范式的核心是:从代码生成到智能体的飞轮建设。这里面也包含四大趋势。

趋势五:即时软件会快速增长。这个品类虽然是边缘创新,刚开始体现的都是一些边缘软件,但我相信它的规模和用户使用的场景会越来越大。包括中间地带的柔性软件也会逐步走向工程化成熟。
趋势六:Harness Engineering 的成熟和进化,今天的 Harness Engineering 还是工程师手工配置,或者加入 AI 辅助的部分。但我们很明显看到,Harness Engineering 越来越自动化,Agent 自己来做 Harness Engineering。我相信这是从 26 年下半年到 27 年的一个工程趋势。
趋势七:开发工具链和基础设施,从 IDE 到测试工具、调试工具、性能工具等等,都要从以人类工程师为中心的方式转变成 Agent 原生的方式。要让Agent 能够方便地调用测试工具、调试器、优化器、项目管理工具等。包括源代码的共享机制也是,比如 GitHub、我们的GitCode,都是为人类工程师共享源代码设计的。新一代软件转换为以 Agent 写代码为主之后,这些源代码共享平台也要为 Agent 编写代码和Skills的共享协同协作而重构。
趋势八:以多Agent协作驱动的自主软件工程的边界会继续拓展,自主性会越来越强,从小团队到中规模团队再到大型团队。
最后,计算范式的核心是,AI 基础设施也正面临范式级的重构。

趋势九:整个云计算服务模式会被深度重构。传统以“硬件资源租赁”为主的 IaaS服务模式将演化为“Token生产”的基础设施服务;PaaS将从应用运行平台,演化为 MaaS(Model As a Service模型即服务)和Agent运行时的组合能力平台。上层SaaS从应用功能交付服务,将向以任务交付为中心的AaaS智能体即服务(Agentic as a Service)演化。

趋势十:Token 经济学将从应用技巧,转变为新一代基础设施工学。Token 的综合优化在代替人力成本方面的经济效益,很快会成为基础设施非常重大的命题。
趋势十一:推理算力的池化、异构和弹性。AI 推理算力正在从 ” 按模型分配” 的静态模式,走向 ” 按需动态调度” 的池化模式,调度对象也从 GPU 扩展为包含 GPU、NPU、LPU 在内的异构计算单元。
趋势十二:端云协同的 AI 计算架构也会走向成熟。包括最近 Google 推出的端侧模型,还是有非常好的表现。未来会有越来越多的轻量级推理服务在端侧完成、而复杂、高价值的推理任务交给云上推理服务完成。
我的演讲就到这里,希望能给大家带来启发和收获,谢谢!
夜雨聆风