AI游戏开发天花板!港中大MMLab最新开源,一句话生成可玩网页游戏-夜雨聆风

AI游戏开发天花板!港中大MMLab最新开源,一句话生成可玩网页游戏

文丨谭梓馨

游戏开发处于创意设计与复杂软件工程的交叉领域，需要协同统筹游戏引擎、实时运行循环，以及跨多文件高度耦合的程序状态。

如今，大语言模型（LLM）与代码智能体虽能轻松完成独立的编程任务，但当仅依据高层设计方案开发一款可完整游玩的游戏时，却屡屡陷入困境：跨文件代码冲突、场景逻辑链路断裂、整体逻辑前后矛盾等问题频发，最终开发彻底崩盘。

为解决这一痛点，近日，香港中文大学多媒体实验室（MMLab）团队推出了OpenGame：首个专为端到端网页游戏开发设计的智能体框架，而且完全开源。

GameCoder-27B是支撑该框架的专用代码大模型，通过持续预训练、有监督微调、基于执行反馈的强化学习三阶段训练流程，深度精通各类游戏引擎开发逻辑。

在150条多样化游戏创作提示词的测试中，OpenGame创下了行业全新最优水平。

两大核心组件

搞定AI游戏开发难题

长久以来，游戏一直作为交互式仿真环境，用来衡量人工智能的智能水平，从深蓝、阿尔法狗、Cicero等里程碑成果，到SIMA 2这类现代3D通用智能体，皆是如此。

和普通工具类软件不同，一款可正常游玩的游戏属于实时运行系统，其品质高度依赖：更新循环、物理引擎、事件响应、资源管线，以及跨多文件强耦合状态之间的无缝协同。

前沿模型普遍存在三类典型失败问题：

1、逻辑不自洽：模型无法在游戏主循环中全局把控程序状态，导致项目卡死、无法正常退出，或是核心玩法完全实现不了；

2、引擎专业知识缺失：通用模型经常无视或误用引擎自带的抽象机制，不懂得调用引擎原生的物理、场景、事件系统，反而从零重复造轮子；

3、跨文件代码不一致：哪怕单个文件代码看着没问题，整个项目依然容易崩溃——资源标识不匹配、场景关联逻辑错乱、配置字段缺失、初始化顺序错误等问题频发。

研究人员认为，不能靠通用代码智能体解决一切，而要走向懂游戏内在架构的专用框架。

OpenGame的核心是Game Skill游戏能力模块，可把自然语言的游戏设计需求，转化为能直接运行的完整项目。它通过两大可迭代进化组件，系统性解决项目集成故障：

第一是模板能力（Template Skill）：不断扩充项目框架模板库，从一套通用基础元模板出发，逐步衍生出各类专用模板体系，比如重力横版、俯视角连续移动等类型，大幅降低生成难度，同时稳固整体项目架构。

第二是调试能力（Debug Skill）：持续维护一套动态更新的调试规范，根据项目编译、测试、运行中的真实问题不断迭代。让智能体积累经过验证的修复方案，系统性解决高频集成故障，而不是每次都从头盲目排错。

例如，输入提示词：“制作一款以复仇者联盟为主角的史诗级横版动作平台游戏。玩家可以选择钢铁侠（激光和飞行）、雷神（锤子近战和闪电）或绿巨人（重击）闯过三个截然不同的关卡：一座废墟之城、一艘神盾局航母，以及最终的泰坦星。每个英雄都需要一个普通攻击、一个特殊技能和一个清屏终极技能。最终Boss必须是使用无限宝石力量的灭霸。美术风格是90年代卡普空街机游戏的硬核像素风，而不是可爱/Q版风格。”

看下生成效果Demo：

已关注

关注

重播分享赞

视频详情

支撑这套框架的是领域专用基础模型GameCoder-27B，它基于通义千问Qwen3.5-27B基座研发，研究人员不只是简单调用通用代码大模型，而是通过持续预训练、有监督微调、基于运行反馈的强化学习三阶段流程专门训练，让模型深度掌握各类引擎架构范式、API使用范式，以及多文件游戏系统必备的逻辑规范，为上层智能体提供更强的底层能力支撑。

此外，该团队还构建了OpenGame-Bench评测流水线，用来评估智能体能否真正做出可交互的网页游戏，对智能体生成的游戏项目进行量化打分。

框架加持

多项指标碾压主流基线模型

研究人员将OpenGame与多款主流基线模型进行对比，涵盖大模型直接生成代码以及成熟的智能体框架两大类别。

评测对象包含开源模型：通义千问Qwen-3.5-Max、MiniMax m2.5、GLM-4.5、Kimi K2.5、DeepSeek V3.2；闭源模型：Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Pro。

此外，选取了两款主流框架参与评测：qwen-code和Cursor。

性能表现结果显示，当OpenGame以Claude Sonnet 4.6作为底层推理引擎时，达到了目前业内最优水平，项目构建完整性BH=72.4、视觉可用度VU=67.2、需求契合度IA=65.1。

侧重画面表现的模型（如Gemini 3.1 Pro）在视觉可用度上领先，但需求契合度偏低；而代码专用模型（如DeepSeek V3.2）项目构建完整性表现优异，视觉效果和需求匹配得分却偏弱。

搭载GameCoder-27B的OpenGame评测结果，在构建完整性和需求契合度两项指标上，超越了所有开源、闭源的普通大模型基线，具备不俗竞争力。

OpenGame虽然整体达到了业界最优水平，但在不同交互游戏场景下的优势表现仍有所差异。例如，在以物理机制、空间场景为主的游戏中表现最强，平台跳跃类达76.8分，俯视角射击类为71.4分；策略类（58.2分）和解谜类（52.6分）这类更抽象的游戏类型上，所有系统的效果都出现明显下滑。

门槛再次降低

重塑游戏创作生态

论文提到，性能上限也反映出本质难题：把模糊的自然语言需求，转化为逻辑、渲染、资源管理相互自洽、可正常游玩的多文件游戏工程，本身就极具挑战。

游戏中逻辑出现不同步，往往不会显性报错，既没有编译警告，也不会造成程序崩溃，由于缺少明显的异常追踪信号，智能体在自动调试过程中很难发现并修复这类隐性问题，这为后续研究指明了一个重要优化方向。

总的来看，OpenGame的一大价值，是把网页游戏开发的技术门槛彻底拉低了。

以往做游戏要懂引擎、会编程、还要处理复杂的多文件兼容问题，如今依靠专用模型与模板化、可迭代的智能体能力，策划、创作者、独立开发者都能快速做原型、快速验证玩法，让创意不再受技术能力束缚。

OpenGame的技术范式不仅适用于网页小游戏创作，也具备向交互式教育应用、仿真模拟场景、互动H5内容等领域延伸的潜力。

随着框架开源共享与技术持续迭代，AI将重塑游戏行业的生产模式，形成“人类主导创意设计、智能体承接工程落地”的全新协作形态，有望催生海量轻量化小游戏、教育互动游戏、休闲创意小游戏，让行业内容供给更加丰富。

-END-

活动推荐