突破性能上限!受OpenClaw启发,上海AI Lab提出新框架,让6B生图模型超越谷歌Nano Banana 2

文丨谭梓馨

近年来，多模态生成技术日新月异，各类先进算法与模型架构设计，大幅提升了视觉生成效果的质量与易用性。

GPT-Image、Nano Banana等主流闭源模型，以及Qwen-Image、Z-Image等知名开源框架，在多项评测基准中不断刷新最优性能纪录。

这类模型处理常规简单任务时表现优异，能够稳定生成高保真度内容，高度贴合通用文本提示词的创作需求，但在面对复杂多层指令，或专业下游落地场景时，仍存在明显短板。

日前，上海人工智能实验室、南京大学、上海交通大学、香港中文大学团队合作提出一种新架构：GEMS。

这是一种融合记忆与技能、原生智能体架构的多模态生成框架，能够帮助基础模型突破在通用任务与下游任务中固有的能力局限。

研究人员在五大主流任务与四大专业下游任务中，基于多款生成底座模型开展全面评测。

结果表明，GEMS能够稳定实现大幅性能增益，更厉害的是，该框架赋能轻量化6B参数模型Z-Image-Turbo，使其在GenEval2评测中超越当前最优模型Nano Banana 2，这证明：依托智能体调度架构，可有效拓展原生模型的能力边界。

新框架的三大核心支柱

为弥补文生图过程中的短板，推理阶段扩展已成为提升模型性能的关键策略，当前业内研究主要通过迭代优化环路，或多智能体协作系统来应对更复杂的生成任务。

受OpenClaw、Claude Code等先进智能体框架成功实践的启发，GEMS从全新的智能体视角进行了架构重塑，核心包含以下三大支柱。

智能体闭环：采用结构化多智能体架构，通过闭环优化迭代提升生成质量，确保在复杂任务上实现高保真表现；

智能体记忆：一种持久化记忆机制，区别于简单的上下文累积或连续单步更新，该机制全局记录优化轨迹，并通过层级压缩保留事实信息、提炼高层经验，有效消除信息冗余，提升迭代优化的整体质量；

智能体技能库：可扩展的领域专业知识库，通过按需加载与渐进式调用机制，解决孤立任务专用系统的碎片化问题，最大化扩展性并降低认知负担，使系统能高效处理各类下游任务。

该框架的泛化能力在多款生成底座模型上得到验证。

具体而言，在轻量化蒸馏模型Z-Image-Turbo上应用GEMS后，模型在主流基准任务上的平均性能提升达到14.22，在下游任务上平均提升14.03，让6B参数的Z-Image-Turbo在GenEval2上超越了当前最优模型Nano Banana 2。

在另一款主流开源模型Qwen-Image-2512上验证该框架，其在主流任务与下游任务上分别实现平均16.24和7.96的性能提升。

此外，GEMS引入专业技能为优化过程提供针对性引导，即便在高度专业化的领域中，也能实现稳定且显著的性能提升。

一些改进生图性能的新发现

研究人员选取具有挑战性且尚未饱和的评测基准GenEval2对GEMS进行消融实验，随着智能体循环、智能体记忆、智能体技能的依次加入，模型性能获得显著提升。

具体而言，基础的智能体循环将分数从31.0提升至52.4；在此基础上加入智能体记忆与智能体技能后，分数分别进一步提升9.0分和2.1分，最终得分达到63.5。

这表明GEMS能够有效释放基础模型的潜力，通过智能体推理与领域专业知识，使其突破固有的能力上限。

智能体循环本身就带来了显著的性能提升，GEMS不仅初始基线更高，而且成功率呈现持续上升趋势。

在GenEval2上，成功率从62.2%逐步提升至71.4%，并且随着迭代轮次增加，与基线方法的差距不断拉大，这一趋势表明，优化器（Refiner）并非只是生成随机变体，而是基于反馈主动进行有导向的优化。

在智能体记忆配置的影响方面，研究人员发现，更丰富的多模态上下文能为优化过程提供更可靠的指导。

但并非信息并非越多越好，把完整思考过程（用于生成对应提示词的思维链CoT）加入记忆时，性能提升微乎其微。

为解决这一问题，研究人员使用压缩器将这些原始思路提炼为精简的“经验”，这一策略带来了显著的2.5分提升，证实了简洁、关键的决策洞察，对于长上下文智能体推理而言，远比对未经处理的内部思考链更有效。

此外，GEMS在实现更优性能的同时，显著降低了计算开销，在平均每个任务仅生成约3张图像的情况下，GEMS能大幅超越其他推理阶段增强方法。

智能体记忆与智能体技能能够提升生成质量，从而使模型更早收敛终止，将平均迭代次数从3.26降至2.80。

研究人员还发现，GEMS能够根据用户提示自主触发对应技能，显著提升整体视觉美感与构图质量，智能体技能通过在特定生成维度上提供针对性增强，有效提升了主流任务的性能。

“智能体推理”激发出新路径

总的来说，GEMS系统地将智能体机制引入文本到图像生成领域，通过迭代优化、轨迹记忆与领域技能三位一体的框架，重新定义了复杂提示下的生成优化范式。

这项研究不仅在多个主流与专业基准上实现了显著性能提升，更重要的是证明了轻量化基础模型在智能体架构加持下，可以超越更大、更强的闭源模型，为低成本、高效率的多模态生成提供了新路径。

目前，文生图大模型排榜榜前十技术竞争十分激烈。

GEMS清晰展示了“智能体推理”对突破基础模型固有上限的变革性潜力，有助于实现更加可控、可靠、专业化的文生图系统。

-END-
活动推荐
告别50万人力成本！头部科技6周年超级陪跑套餐来啦～首批10席限量名额

如果您有什么想说的，欢迎在评论区留言讨论！
投稿或寻求报道，欢迎私信“投稿”，添加编辑微信。
了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会，领取100份AI科技商业研报合集，加群共同探讨与成长——
扫描下方二维码，添加头部科技晶总微信！