AI精选知识库 (可下载),文章底部有VIP年度专属知识库

一、顶级机构(OpenAI、Google、DeepMind)“AI用AI”最新进展
“AI用AI”即人工智能系统被用于设计、优化、训练乃至协作完成更高级的AI任务,已成为顶级研究机构的核心前沿。OpenAI、Google(及其深度整合的DeepMind)正通过构建自动化AI研发闭环、部署多智能体协作系统以及革新基础算法,将这一理念推向实践。
🔬 内部工具与研发流程的AI化
顶级机构正将AI深度集成到自身的核心研发流程中,以提升效率并探索新的工作模式。
- Google DeepMind的专用开发者模型“Goose”
:2024年,Google开发了名为“Goose”的内部专用大语言模型,旨在提升员工编程效率。该模型基于谷歌25年的工程专业知识训练,能回答谷歌特定技术问题、使用内部技术栈编写代码以及基于自然语言提示编辑代码,拥有28k的上下文窗口。这是谷歌“将AI引入产品开发流程的每个阶段”计划的一部分。 - OpenAI的Codex App:迈向多智能体协作编程
:2026年,OpenAI发布的Codex独立桌面App,将AI编程从“代码补全”推进到“多智能体协作”的新阶段。其核心是作为“指挥中心”,支持多智能体并行工作(按项目组织多个智能体线程)、工作树分支模式(内建Git worktree支持以避免冲突)以及Skills(技能)机制(将指令、资源与脚本打包成可复用的技能,使AI能独立完成从设计到测试的完整工作流)。这标志着AI从辅助“写代码”转向自主“用代码做事”。 - 自动化研发的预测与“持续学习”拐点
:行业预测指出,自动化编程是实现AGI的关键拐点。Google DeepMind和Anthropic的研究人员预测,2026年将成为“持续学习”实用化的关键之年,即AI模型能在实际使用中(如编码过程)不断自我改进,减少对人类干预的依赖。
🧠 研究范式的革命:从AI辅助到AI驱动
研究焦点已从人类设计AI,转向让AI具备自我改进、自我验证乃至自主科学发现的能力。
| Google DeepMind | 机器人学习 | 两阶段自改进框架 | |
| Google DeepMind | 大语言模型推理 | “内在自我批评”方法 | |
| Google DeepMind | 自主科学发现 | Aletheia系统 | |
| OpenAI | 模型推理能力 | 测试时计算扩展范式(o1系列) |
⚙️ 高效训练基础设施的自动化突破
为了让“AI训练AI”更高效、更可扩展,基础设施层面的自动化创新至关重要。
- 弹性循环变换器(ELT)与内循环自蒸馏
:该架构让同一组参数循环执行多次,等效于更深网络但参数量更少。其“内循环自蒸馏”训练策略,让学生在轨道(随机停止)的输出同时学习真实数据和教师轨道(跑满循环)的优质输出,使得每一个中间状态都能产生有意义的输出。实现了参数效率与计算深度的解耦,用1/4的参数即可生成同等质量的图片和视频。 - 解耦分布式训练(Decoupled DiLoCo)
:这项2026年的技术专注于解决跨数据中心异构硬件上训练巨型模型的挑战。它结合异步调度与降低通信开销的技术,允许不同硬件以独立速度运行,据称可将分布式训练时间减少高达50%,提升了大规模训练的可扩展性和弹性。 - 算法层面的自动化发现:Lion优化器
:2026年,Google Brain AutoML团队通过符号程序搜索,自动发现了一种名为Lion(符号发现优化器)的新型优化算法。相比AdamW,它减少高达50%的额外内存占用,并在训练速度和模型泛化性能上实现突破,在大规模预训练、扩散模型、语言建模等多个任务中持续超越AdamW,最高可节省5倍预训练成本。这证明了用AI发现基础算法,而非单纯堆砌算力的巨大潜力。
🤝 多智能体协作系统的标准化与理性演进
OpenAI正系统性地推动多智能体系统从实验框架走向企业级应用,同时学术界对其适用边界有了更清晰的认识。
框架与工具的产品化路径:
- 从Swarm到Agents SDK
:OpenAI于2024年开源多智能体编排框架Swarm,并于2025年升级为 Agents SDK,集成可视化工具以简化工作流程管理与编排。 - 统一API与内置工具
:2025年推出的 Responses API 统一了多轮交互和工具调用的接口。同时为智能体内置了网络搜索、文件搜索(增强RAG) 和 计算机使用(Operator) 三大工具,极大扩展了其感知与行动边界。 - 企业级示范
:2025年,OpenAI开源了基于Agents SDK的航空公司客服智能体演示系统,展示了如何将复杂请求路由至专业子智能体,并集成实时决策可视化与安全机制,为实际部署提供了蓝图。 学术界的理性审视:2026年的研究对多智能体系统的效率边界进行了界定。研究表明,在固定推理预算和完美利用上下文的条件下,单智能体系统在信息效率上更高,在多跳推理任务上始终匹敌或胜过多智能体系统(依据是数据处理不等式:信息经过更多智能体只会损失)。多智能体的优势场景相对狭窄:
- 可并行的读密集型工作
(如独立研究子查询的fan-out)。 - 窄领域高可靠性要求
(如事件响应,多智能体orchestrator在可执行推荐率、正确性上可能有数量级提升)。 - 需要严格安全边界的不相交工具或上下文领域
。对于顺序任务或共享状态的任务,配备严格上下文管理的单智能体往往是更优选择。
总结而言,OpenAI、Google与DeepMind在“AI用AI”的探索上呈现共同趋势:向内,通过专用AI工具赋能自身研发;向核心,致力于让AI获得自我改进、自我验证的“自主进化”能力;向基础,通过自动化发现算法和构建高效训练设施来夯实基础;向应用,推动多智能体系统朝着标准化、理性化的方向落地。这一切都指向一个减少对人类标注和干预依赖、更加自主的AI研发未来。
二、中美欧科技巨头“AI用AI”最新进展
全球科技产业的竞争版图,在“AI用AI”的浪潮下正经历深刻重构。以中国互联网与科技公司、欧洲的Meta与Mistral AI等为代表的巨头们,正以各自迥异的战略路径和技术哲学,将AI的自我自动化能力推向产品化与生态化,绘制出一幅多元竞逐的壮阔图景。
安谋与伐略:北美巨头的系统化进击
在OpenAI与谷歌之外,北美的Anthropic、xAI等新兴巨头以鲜明的技术主张,将“AI用AI”推向更深的伦理与系统集成层面。
Anthropic:递归自我改进的“时间预言家”与透明化伦理先导Anthropic联合创始人基于对核心能力进展曲线的聚合分析,做出了一个影响深远的预言:到2028年底,实现无人类参与的AI自主研发的概率超过60%。这一判断的基石是其模型在自动化AI研发关键环节上的突破:Claude模型在真实GitHub问题解决基准(SWE-Bench)上的能力从2%飙升至93.9%;在论文复现基准(CORE-Bench)上,15个月内从21.5%提升至95.5%;甚至在优化小型语言模型训练代码的任务上,实现了52倍的优化加速。
- Constitutional AI的深度演进
:2026年初,Anthropic开源了长达23000字的完整“AI宪法”,标志着其对齐方法论从内部规则清单转向公开的**“美德伦理学”教育框架**。它确立了“安全 > 伦理 > 遵循公司指南 > 尽可能有用”的价值排序,赋予了AI坚守更广泛伦理的权限。 - 内省适配器:实现AI“自我坦白”
:2026年4月发布的这项技术,通过极轻量插件,训练模型用自然语言准确坦白其在微调中学到的隐蔽后门、偏见等,将安全审计推向“内部自白”新范式。 - 生产级智能体团队
:Claude Opus 4.6集成的“Agent Teams”是一个企业级多智能体编排系统。2026年2月,16个并行Claude智能体在两周内从零构建了一个能编译Linux内核的C编译器(10万行Rust代码),证明了其处理复杂软件工程项目的自主能力。
xAI:算力驱动的激进迭代与跨公司整合xAI的发展轨迹紧密围绕超大规模算力建设、模型快速迭代以及与特斯拉的深度整合。
- “巨硬”(Macrohard)智能体项目
:这是xAI与特斯拉的联合核心项目,采用“双系统”设计:xAI的Grok模型作为“系统2”负责思考规划,特斯拉的智能体作为“系统1”负责实时屏幕操作,目标是模拟一家完整的软件公司。尽管伴随高管离职等内部消息,但马斯克确认项目仍在推进。 - 超级算力集群“Colossus”
:2024年9月上线,由10万张H100 GPU驱动,并计划扩张至百万芯片级别,为Grok系列模型的训练提供了庞大底座。 - 快速的模型与战略迭代
:从Grok-2到宣称以“前所未有规模”强化学习训练的Grok-3,再到2025年7月的Grok-4,模型迭代迅速。公司战略层面,xAI在2025年3月与社交媒体X合并,最终于2026年2月被SpaceX收购并整合,更名为SpaceXAI,结束了其独立实体生涯。
百川争流:中国科技巨头的全栈赋能与产业深耕
中国领先的科技公司将“AI用AI”的能力深度融入其云平台、终端OS与产业解决方案中,形成了从自动化工具到自进化系统,再到开放生态的完整布局。
阿里巴巴:从平台赋能到智能体长时记忆
- 自动化训练与“智能体中训”
:阿里云PAI平台集成英伟达Physical AI软件栈,提供全链路自动化服务。其开源AI代理“通义DeepResearch”(300亿参数)通过首创的 “智能体中训” 范式,仅用33亿有效参数和AI生成的数据,在2天内、耗资低于500美元完成训练,并在研究任务上超越更大模型。 - 智能体记忆管理与多智能体平台
:2025年11月发布的论文《AgentFold》提出类人记忆系统,使智能体能自主决定保留或遗忘信息,在超500轮对话中仅消耗7K tokens。与高校联合推出的AgentScope平台,通过分布式机制显著提升超大规模多智能体模拟的效率与可靠性。 - 开发生态构建
:阿里云百炼平台已有超20万开发者创建80多万个智能体;支付宝“百宝箱”让商家无需代码即可创建并发布智能体至小程序。
腾讯:聚焦零代码自动化与自我挑战进化
- 零代码AutoML系统
:基于MLZero多智能体系统的AutoGluon助手,能将自然语言描述直接转换为训练好的模型,在外部基准测试中取得86%成功率。其四模块(感知、语义记忆、情节记忆、迭代编码)协作架构实现了高度自动化。 - R-Zero:自我挑战的进化框架
:该框架克隆基础模型为“挑战者”与“解答者”,让模型通过生成和解决问题实现自主进化,使Qwen3-4B在数学推理上平均提升6.49分。 - 智能路由与协同推理
:开源的TCAR智能路由模型采用“先推理,后选择”机制,提升复杂运维场景成功率。MarsRL框架通过强化学习同时训练协作中的多智能体,并引入智能体特定奖励,提升数学竞赛准确率。
华为:端侧自进化与网络级智能体协同
- AutoML的大规模产业应用
:其AutoML技术早在2019年即实现数千万台手机拍照算法的大规模商用,用于模型压缩、加速与芯片亲和设计。该技术也支撑着盘古大模型等行业模型的训练调优。 - 终端AI的“自进化”
:2026年,鸿蒙AI助手“小艺Claw”引入核心自进化功能,能动态学习用户习惯、优化执行路径,并将经验沉淀为长期记忆,实现伴随用户成长。 - 电信级多智能体协同
:面向自智网络,华为首创电信级多智能体协同架构,采用主从分工,并首创AGlink智能体协议保障安全交互。通过RISE智能业务引擎等构建意图驱动的智能体生态。
百度:自进化智能体与生成式应用革命
- “百度伐谋”:可商用的自进化超级智能体
:2025年11月发布,它采用超稀疏MoE架构,能自主将产业问题抽象为数学问题,通过持续迭代寻找超出人类认知的“全局最优解”,已应用于金融风控、重大工程布线等场景。 - “秒哒”:对话式无代码应用平台
:国内首个此类平台,其背后的多智能体协作矩阵能像人类团队一样分工协作,完成从设计到开发的全流程,并通过进化式工作流持续优化自身。 - AutoML与智能体基础设施
:AutoML 2.0平台支持全流程自动化。百度智能云千帆平台的智能体Pro支持企业定制深度思考的智能体,该平台Agent开发量已突破130万个。
锐意破帆:欧洲力量的算法创新与开放协议
欧洲的代表力量正以其在算法与开放生态上的专注,为“AI用AI”的全球图景贡献独特路径。
Meta:自我评估与智能体评估的双重驱动Meta的研究核心是减少对人类反馈的依赖,构建自我评估与协作评估的生态系统。
- “自学评估器”与“自我奖励语言模型”
:2024年10月发布的“自学评估器”完全使用AI生成数据训练,可对科学、编程等复杂输出进行可靠评估,旨在取代RLHF。“自我奖励语言模型”则让模型同时扮演学生和考官,通过自我迭代提升指令遵循能力。 - Agent-as-a-Judge框架
:该框架让一个智能体评估另一个智能体的整个任务过程,提供细粒度反馈,其评估与人类对齐率达90.44%,成本仅为人工的约3%。 - 基础设施自动化
:其KernelEvolve技术利用AI智能体自动为异构硬件生成和优化内核代码,将数周工作压缩至数小时,实现最高17倍性能提升,被评价为让“LLM智能体成为异构AI系统的通用编译层”。
Mistral AI:纯强化学习训练与Agents平台标准化
- Magistral模型的纯强化学习突破
:其推理模型系列Magistral宣称完全基于纯强化学习训练,未使用知识蒸馏。通过自动化数据筛选(包括两阶段难度评估)和复杂的自动化奖励系统(规则验证、代码运行、多语言一致性奖励),实现了在数学推理等任务上的显著提升。 - 发布Agents API开发者平台
:2025年5月推出,基于Model Context Protocol开放协议构建,集成了代码执行、图像生成、网页搜索、文档库接入和持久化记忆,并支持代理编排,允许多智能体协同处理复杂流程。 - 工程创新支撑
:为支撑纯RL训练,开发了分布式异步在线RL系统,平衡了数据收集效率与策略一致性。
微软:构建开放智能体网络与在线进化微软正致力于将AI能力转化为一个开放、协作且能持续进化的生态系统。
- 在线体验学习
:2026年发布的方法,让大模型从真实用户互动轨迹中提取知识,通过“在线策略情境蒸馏”融入模型,形成自我改进的良性循环,无需人工标注或模拟环境。 - All in 开放的智能体世界
:推出Microsoft Entra Agent ID为智能体分配唯一身份;其Copilot Studio和Azure AI Foundry Agent Service支持低代码和专业级的多智能体编排;并积极拥抱MCP等开放协议以构建互操作生态。 - 资源感知的AutoML
:提出的DnnSAT方法,将资源约束下的配置空间缩减形式化为约束满足问题,使AutoML搜索过程平均加速1.19至3.95倍,提升了在受限环境中的实用性。
综观中美欧科技巨头的竞逐,一条清晰的共识已然浮现:AI发展的下一阶段,赢家将是那些能成功构建 “自我进化闭环” 与 “开放协作生态” 的体系。无论是通过算法创新实现模型的“自主修炼”,还是通过平台战略连接无数智能体形成“群体智能”,其终极目标都是让AI成为一种内生的、可持续发展的核心生产力。当AI不仅能用AI,更能训练、评估和组建AI时,一场重塑所有行业研发范式与竞争根基的深远变革,已拉开序幕。
三、学术界与开源社区“AI用AI”最新突破
在前述顶级机构与科技巨头构筑的“自我进化闭环”与“开放协作生态”基线之上,学术界与开源社区正以前沿理论探索和可复现的工程实践,成为推动“AI用AI”技术民主化与范式革新的关键力量。其核心贡献在于:以系统性的理论突破与极低成本的自动化工具,将巨头验证的技术路径转化为可插拔的公共模块,并在多智能体协作等复杂问题上,提出了超越现有效率边界的创新解法。
🔬 开源社区的自我改进算法:从“主动反思”到“自我编程”
开源社区不再满足于对大型模型的微调与适配,而是致力于开发让AI系统主动进化的核心算法与框架,旨在以极低成本复现甚至超越大型实验室的自我改进成果。其创新主要集中于三条路径:
自我反思与主动修正:从“事后补救”到“过程干预”传统的自我改进多在生成完整答案后进行修正。复旦大学、上海人工智能教育研究所与蚂蚁集团在2025年联合提出的 PASR(主动自我精炼)方法,革新了这一范式。该方法通过强化学习,教会大语言模型在生成答案的过程中主动发现问题并即时修正,实现了“边写边想”的类人思考。在Qwen3-8B模型上,PASR将平均计算消耗降低了41.6%,同时提升了任务准确率。
代码生成与自主进化:开启“AI为AI编程”时代这是最具颠覆性的方向,目标是让AI系统能够重写和优化自身代码。达尔文哥德尔机 (DGM) 项目在2025年提出,维护一个多样化的编码智能体档案库,通过迭代修改自身代码并利用基准测试筛选,实现能力的开放式持续累积。更具轰动性的实践是2025年的 OpenEvolve(基于AlphaEvolve的开源实现)。开发者利用该框架,让AI系统在没有输入任何人类GPU编程知识的情况下,自动探索并发现了在Apple Silicon芯片上超越人类手动优化21%的GPU内核算法,并在真实Transformer推理任务中带来平均12.5%的性能提升,首开“零人工干预的硬件级代码优化”先河。
智能体系统框架:构建“越用越强”的自进化生态为解决多智能体系统“部署即固化”的痛点,开源社区推出了具备自进化能力的框架。2025年开源的 EvoAgentX 是全球首个AI智能体自进化框架,用户仅需提供任务描述,框架即可自动构建工作流,并能在运行中根据反馈持续优化提示词和工作流结构,实现平均8%-13%的性能持续提升。尤为值得一提的是,AI研究者安德烈·卡帕西于2026年开源的 AutoResearch 项目。它以约630行极简代码,实现了一个能自主进行机器学习研究的智能体。该智能体遵循“固定时间预算+自动决策”的循环,像虚拟研究员一样自动修改训练代码、运行实验并根据结果决定回退或保留,为自动化模型研究提供了轻量化但极具启发性的范式。
📚 学术界的理性之光:方法论创新与效率边界拓展
学术界以其严谨的实证研究与理论构建,为“AI用AI”的规模化、可靠化应用提供了关键方法论,并在效率与安全等核心问题上进行了深刻反思。
表:2024-2025年学术界在AutoML与AI自我改进领域的代表性突破
| 研究领域 | 核心突破 | 关键贡献 | 来源/会议 |
|---|---|---|---|
| 自动化机器学习 (AutoML) | 资源感知的元学习 | ||
| 智能超参数搜索终止准则 | |||
| 短时约束评估的可行性 | |||
| AI自我改进 | 自我反思检索增强生成 (Self-RAG) | ||
| 代码自我对齐 (SelfCodeAlign) | |||
| 终身知识编辑框架 (WISE) |
在多智能体协作领域,学术界的范式转变尤为显著:
- 从同构走向异构协同
:2024年,北京大学提出异构多智能体强化学习算法系列。更具突破性的是,2026年北航、清华、北大联合提出的 异构智能体协同强化学习新范式,首次实现了异构智能体在训练阶段双向互学、推理阶段独立部署,打破了传统协同训练的局限,为整合不同能力的大模型提供了理论框架。 - 聚焦开放环境与高相容性
:南京大学与南栖仙策2024年提出的 Macop算法,将训练范式从“以队友为中心”转为“以智能体为中心”,通过生成多样化队友策略并结合持续学习,使智能体与大量未见队友协作的平均性能提升18%。 - 对现有评估体系的深刻批判
:一篇2026年的系统性综述尖锐指出,当前主流Agent评估基准存在结构性缺陷——15个基准中0个包含安全维度,0个包含成本效率维度。学术界正倡导向**“轨迹级评估”** 范式转变,即全面评估执行过程的规划连贯性、资源消耗与安全合规性,以构建更真实的智能体能力认知。
🚀 开源生态的整合与实践:从研究到应用的闭环
开源社区与学术界的研究成果,正通过开源大模型项目快速整合与验证,形成从理论创新到技术应用的闭环。
- 架构与训练效率的革新
:MoE架构已成为开源大模型降低推理成本的主流选择(如DeepSeek-V3)。在训练层面,2026年开源的 Decoupled DiLoCo 方法结合分布式训练优化,可将跨数据中心训练时间减少高达50%。国产模型如DeepSeek-V4全面适配华为昇腾NPU,智谱GLM-5.1在约10万张昇腾910B上完成训练,验证了自主技术栈的可行性。 - “AI训练AI”的自我进化实践
:MiniMax于2026年开源的M2.7模型,其核心是让模型在训练中自主运行超过100轮优化循环,自行发现问题、修改代码并验证效果,全程零人工干预,内部评测性能提升30%,将学术界的“递归自我改进”设想推向工程实践。 - 智能体能力成为竞争焦点
:2026年开源模型的竞赛重点已转向智能体能力。各厂商均针对Agent场景专项优化,并在SWE-bench等基准上取得领先。开源战略本身也成为争夺开发者心智、构建生态闭环的核心手段。
总结而言,学术界与开源社区正通过“理论构建-算法开源-生态整合”的协同,将“AI用AI”从一个由巨头主导的“秘密”,转变为一场透明、可参与、可迭代的全球性技术运动。它们不仅提供了低成本复现顶尖能力的技术模块,更以其对效率、安全与评估的深刻审视,为这场自我进化的狂奔注入了不可或缺的理性与方向。

如
夜雨聆风