
让 AI 参与研发,难点从来不只是代码生成,而是如何让记忆、状态、工具和测试形成一个能长期运转的系统。
当前行业已经接受了一件事:AI 会写代码,而且会越写越好。
无论是 Copilot、Cursor,还是各种 coding agent,大家都已经见过它们在局部任务上的惊艳表现:补函数、改 bug、写测试、搭页面、重构样板代码、生成接口调用、解释旧代码……这些事,AI 确实已经很能打。
但真正把 AI 用进研发体系里的团队,还是很少。
原因不在于模型不够强,而在于很多团队对“AI 参与研发”的理解,还停留在一个简化的画面里:
给 AI 一份需求,它去写代码;写完后人来验收。
这当然只是起点,离真正的“AI 驱动研发”还差得很远。
现在越来越明确的是:
从 AI 写代码,到 AI 驱动研发,中间不是差一个更强的模型,而是差一个 HENGSHI JARVIS。

HENGSHI JARVIS,不是某个具体产品名,也不是一个酷炫的 Agent 外壳,而是一个更本质的东西:AI Native 研发中枢。
一、AI Coding的核心逻辑与底层局限
需要明确的是,主流的 AI 辅助研发具备充分的合理性与产业价值,已成为研发智能化的基础能力底座。它的典型工作方式是:
研发人员输出明确的细分任务;
AI 大模型读取本地代码、工程文件及局部上下文信息;
基于语义理解与逻辑推理输出代码迭代与优化方案;
自动完成代码编写、片段修改、逻辑补全与语法适配;
研发人员完成代码评审、功能测试与有效性校验,最终决策是否采纳生成结果。
传统 AI Coding 的有效性,本质是精准适配了大语言模型的核心技术能力:自然语言与程序代码的双向映射能力、通用工程的归纳总结能力、局部上下文的短链路推理能力、标准化重复代码的高速生成能力。因此,在任务颗粒度细小、边界约束清晰、上下文范围有限、业务逻辑固化的场景中,传统 AI 编码已经能够稳定输出高质量结果,充分满足轻量化迭代需求。
但它有个根本限制:它默认问题主要发生在“实现层”。
换句话说,只要业务需求基本明确,研发的核心工作仅为需求的代码落地与语法实现。
而真实的软件研发绝非单一代码实现环节所能覆盖。
二、软件研发的复杂度不在于实现,而在于持续稳健“做对”
在规模化、长期迭代的软件工程项目中,真正消耗研发资源、制约交付质量与效率的核心瓶颈,并非代码编写本身,而是贯穿全流程的隐性工程约束与经验沉淀问题:需求边界界定、历史设计逻辑、过往踩过的坑、代码改动影响范围、曾被否决的方案、核心测试节点,以及人工审批与自动化流程的划分。
这些关键信息,直接决定了代码是否贴合业务、修复是否引发新问题、新需求能否兼容原有规则,也关系到团队是否陷入重复讨论,以及 AI 会不会始终像新人一样从零开始。
所以研发的难点,从来不只是“生成能力”,而是:
如何在长周期、多约束、会变化的环境里,保持记忆和秩序。
而这正是“AI 写代码”范式天然缺的部分。
三、单 Coding Agent 无法承载体系级研发职责
单 Coding Agent 已具备基础的工程能力,代码读取、编写、命令执行、自动化测试、文件修改、结果汇总等标准化工作都能实现。但当其试图承接体系化、全流程的研发职责时,会暴露以下结构性短板,无法实现系统级赋能。
1.工程记忆体系脆弱
即便模型上下文不断扩容,研发核心经验也不能只靠堆砌内容解决,真正有价值的并非零散文本,而是设计决策、历史问题规律、被否决的需求及原因、模块关联逻辑、版本规划与待办事项,还有知识时效性判断,这些内容需要系统梳理、持续维护更新,单纯放进上下文里难以高效复用。
2. 全局信息维度缺失
它对实时状态的把控并不稳定,研发工作不只是代码仓库,任务进度、评审记录、版本规划、软硬件环境、人员分工、历史沟通等关键信息都分散在各处,单一 Coding Agent 往往只能看到本地代码,无法掌握任务在整体流程中的实际状态。
3.角色权责单一
实际研发中,开发、测试、产品研判、风险评估、知识沉淀本就是不同环节。如果让单个智能体身兼数职,看似流程统一,实则会造成不少隐患。它会出现自写自测、自行判定合格的情况,也缺少独立视角察觉目标偏差,没法有效沉淀经验,更杜绝不了敷衍过关的问题,最终会让整个系统逐渐变成难以看透的黑盒。
4.不支持长周期协同
跨天、跨周、多分支、多模块的大型迭代任务,需要持续维护任务进度、依赖关系、确认结论、实验结果与流程优化规则。无系统中枢支撑的单点 Agent,仅能完成局部单次任务冲刺,无法串联全周期研发流程,最终形成“局部执行高效、整体迭代混乱”的无序状态。
四、JARVIS:补齐 AI 研发的系统能力
JARVIS 的核心定位并非强化 AI 的编码执行能力,而是构建一套完整的 AI 研发系统中枢:
它负责让 AI 在研发过程中拥有记忆、知道状态、会使用工具、能回收经验,并在关键节点接受人类约束。
这意味着 JARVIS 要补上的,不是单一功能,而是以下核心能力。
1. 记忆层:让 AI 不再每次从零开始
彻底解决 AI “单次任务单次归零”的痛点,沉淀可持续复用的组织级研发知识,核心涵盖历史功能设计决策、缺陷迭代与修复范式、系统已知风险与边界约束、被否决需求及方案依据、实验迭代的成功经验与失败教训。该层级的核心价值,是让 AI 初始介入任务时即可对齐组织工程语境,无需重复认知、重复试错。
2. 状态层:让AI知道现在发生了什么
突破代码局部视角,实现全维度研发状态实时感知,包括当前待处理缺陷及优先级、版本迭代节奏与排期计划、进行中任务进度、代码合并与评审状态、测试与发布环境真实工况。通过全域状态对齐,规避 AI 方案与当前工程进度、环境约束、业务节奏不匹配的问题。
3.编排层:实现研发的可控拆解与调度
摒弃单一 Agent “一键包揽全流程”的粗放模式,将复杂研发工作拆解为需求澄清、方案评审、代码实现、自动化测试、回归验证、知识更新、风险审查等标准化可控环节。通过精细化编排,实现各环节能力专属调度、输入输出标准化、故障精准定位、失败经验定向沉淀,彻底解决笼统归因、无法迭代优化的问题。
4.测试层:让系统对“做对”有真实反馈
区别于浅层的 AI 自动生成测试用例,系统级测试层的核心价值是构建长效质量门禁:将历史缺陷固化为可复用、可回归的自动化校验用例,将隐性的业务边界与口头经验显性化为标准化校验规则,让每一次迭代修复都能形成防复发的工程机制。测试体系不再是编码的附属环节,而是 AI 研发闭环的核心约束底座。
5.人机边界层:让自动化不会失控
成熟的 AI 研发体系并非完全无人化,而是实现局部自动化高效执行、关键节点人工可控约束。由人类统一定义流程边界、审批节点、验收标准与风险阈值,明确自动化可执行范围与必须人工介入的核心场景,在保障研发效率的同时,杜绝自动化迭代失控。
五、为何“中间差了一个 JARVIS”
之所以说二者之间还差一个 JARVIS,是因为两类能力存在明显断层。单纯写代码的 AI,只聚焦当下任务、现有代码和局部逻辑正确性,本质只是高效的执行工具;而真正赋能全流程研发的 AI,需要兼顾历史脉络、团队状态、跨环节协作、故障恢复以及经验沉淀复用,是一套完整的研发体系。
想要把单一执行能力升级为完备的研发系统,就必须搭建起统筹记忆、状态、流程与规则的中枢,而这正是 JARVIS 的核心作用。
六、JARVIS 并非简单的 Prompt 与工具叠加
行业目前普遍存在认知偏差,认为通过丰富文档素材、优化提示词、叠加工具插件、升级大模型,就能实现 JARVIS 级别的 AI 研发。事实上,这种操作只是能力素材的堆砌,并不能形成体系化系统。
真正的 JARVIS 区别于所有单点优化手段:
1.结构化分层记忆
它具备结构化记忆,而非临时信息堆砌。能够清晰区分历史事实、当前状态与未来规划。
2.动态迭代更新
它支持动态持续更新,并非一次性成型。修复问题、做出决策、出现异常等场景,都会不断迭代其记忆与规则。
3.组织级服务定位
它向整个组织服务,目标不是优化单次交互效果,而是让整套研发体系更加稳定、持续沉淀能力。
所以,JARVIS 的本质不是“更聪明地回答问题”,而是“让组织的 AI 能力具有连续性”。
七、JARVIS 已成复杂研发的必选底座
缺少研发中枢的支撑,AI 在复杂研发工作中会反复分析过往已论证的问题、重新提出曾被否决的方案、修复的漏洞未能转化为回归测试、面对已有知识仍从零摸索。这些看似细碎的问题,日积月累会严重损耗团队效率与信心。
反之,如果我们将问题记录、模块资料、设计决策、已知隐患、回归用例、待办事项与版本规划等内容,梳理成一套可被 AI 调用、并随研发工作同步迭代的体系,局面就会彻底改变。
它开始不是一个代码工人,而是一个真正参与研发判断的成员。它能识别重复问题、预判改动风险、从零散工单中总结规律,并在多项任务间保持信息连贯,真正成为参与研发研判的一份子。

结语
HENGSHI
软件行业一定会继续迭代更强的 coding agent。
但如果一个团队只是把更强的 agent 接进现有流程,最后大概率只会得到一个更能干的局部执行器,而不是一个真正的 AI 研发系统。
从 AI 写代码,到 AI 驱动研发,中间真正差的那一步,不是模型升级,不是 token 扩容,也不是 prompt engineering。中间差的是一个能承载组织记忆、实时状态、任务编排、测试约束和人机边界的研发中枢。
它叫做 JARVIS。它不是为了让 AI 看起来更酷,而是为了让 AI 真正能够成为软件公司的长期生产力。
上一篇文章讨论了为什么单次实验测不出真正上限;这一篇想说明,要跨过那道上限,缺的不是更强的“写”,而是一个能让 AI 持续“做对”的系统。

相关推荐
构建软件公司的JARVIS:AI Native研发中枢的方法论
JARVIS实战|为什么单次封闭开发实验测不出AI研发的上限
关于衡石科技
衡石科技致力于在 Data+AI 的数据智能时代开创性定义新一代 Agentic BI,旗下产品HENGSHI SENSE作为企业级的数据智能引擎,赋能客户伙伴零代码构建垂直领域的AI分析智能体应用。
衡石科技成立于2016年,是国内数据分析平台领域唯一专注赋能企业级应用软件SaaS伙伴的产品厂商,服务WPP、宝马、广汽本田、阳狮集团、蓝色光标、国药集团、亚马逊云科技、太太乐、元气森林等大型集团企业客户,同时也和菲尼克斯电气、Synagie(新加坡)、中国航信、深信服、金蝶云、浪潮云、致远互联、天润融通、宝尊电商、纷享销客、六度人和、明道云、北森酷学院等超过两百家企业应用软件 SaaS 落地深度合作,让 built-in 的商业智能分析即刻上线。

夜雨聆风