乐于分享
好东西不私藏

AI游戏开发天花板!港中大MMLab最新开源,一句话生成可玩网页游戏

AI游戏开发天花板!港中大MMLab最新开源,一句话生成可玩网页游戏

文丨谭梓馨

游戏开发处于创意设计与复杂软件工程的交叉领域,需要协同统筹游戏引擎、实时运行循环,以及跨多文件高度耦合的程序状态。

如今,大语言模型(LLM)与代码智能体虽能轻松完成独立的编程任务,但当仅依据高层设计方案开发一款可完整游玩的游戏时,却屡屡陷入困境:跨文件代码冲突、场景逻辑链路断裂、整体逻辑前后矛盾等问题频发,最终开发彻底崩盘。

为解决这一痛点,近日,香港中文大学多媒体实验室(MMLab团队推出了OpenGame:首个专为端到端网页游戏开发设计的智能体框架,而且完全开源。

GameCoder-27B是支撑该框架的专用代码大模型,通过持续预训练、有监督微调、基于执行反馈的强化学习三阶段训练流程,深度精通各类游戏引擎开发逻辑。
在150条多样化游戏创作提示词的测试中,OpenGame创下了行业全新最优水平。
两大核心组件
搞定AI游戏开发难题
长久以来,游戏一直作为交互式仿真环境,用来衡量人工智能的智能水平,从深蓝、阿尔法狗、Cicero等里程碑成果,到SIMA 2这类现代3D通用智能体,皆是如此。
和普通工具类软件不同,一款可正常游玩的游戏属于实时运行系统,其品质高度依赖:更新循环、物理引擎、事件响应、资源管线,以及跨多文件强耦合状态之间的无缝协同。

前沿模型普遍存在三类典型失败问题:

1、逻辑不自洽:模型无法在游戏主循环中全局把控程序状态,导致项目卡死、无法正常退出,或是核心玩法完全实现不了;
2、引擎专业知识缺失:通用模型经常无视或误用引擎自带的抽象机制,不懂得调用引擎原生的物理、场景、事件系统,反而从零重复造轮子;
3、跨文件代码不一致:哪怕单个文件代码看着没问题,整个项目依然容易崩溃——资源标识不匹配、场景关联逻辑错乱、配置字段缺失、初始化顺序错误等问题频发。
研究人员认为,不能靠通用代码智能体解决一切,而要走向懂游戏内在架构的专用框架。
OpenGame的核心是Game Skill游戏能力模块,可把自然语言的游戏设计需求,转化为能直接运行的完整项目。它通过两大可迭代进化组件,系统性解决项目集成故障:
第一是模板能力(Template Skill)不断扩充项目框架模板库,从一套通用基础元模板出发,逐步衍生出各类专用模板体系,比如重力横版、俯视角连续移动等类型,大幅降低生成难度,同时稳固整体项目架构。
第二是调试能力(Debug Skill)持续维护一套动态更新的调试规范,根据项目编译、测试、运行中的真实问题不断迭代。让智能体积累经过验证的修复方案,系统性解决高频集成故障,而不是每次都从头盲目排错。
例如,输入提示词:“制作一款以复仇者联盟为主角的史诗级横版动作平台游戏。玩家可以选择钢铁侠(激光和飞行)、雷神(锤子近战和闪电)或绿巨人(重击)闯过三个截然不同的关卡:一座废墟之城、一艘神盾局航母,以及最终的泰坦星。每个英雄都需要一个普通攻击、一个特殊技能和一个清屏终极技能。最终Boss必须是使用无限宝石力量的灭霸。美术风格是90年代卡普空街机游戏的硬核像素风,而不是可爱/Q版风格。”
看下生成效果Demo:

已关注

关注

重播 分享

支撑这套框架的是领域专用基础模型GameCoder-27B,它基于通义千问Qwen3.5-27B基座研发,研究人员不只是简单调用通用代码大模型,而是通过持续预训练、有监督微调、基于运行反馈的强化学习三阶段流程专门训练,让模型深度掌握各类引擎架构范式、API使用范式,以及多文件游戏系统必备的逻辑规范,为上层智能体提供更强的底层能力支撑。
此外,该团队还构建了OpenGame-Bench评测流水线,用来评估智能体能否真正做出可交互的网页游戏,对智能体生成的游戏项目进行量化打分。
框架加持
多项指标碾压主流基线模型
研究人员将OpenGame与多款主流基线模型进行对比,涵盖大模型直接生成代码以及成熟的智能体框架两大类别。
评测对象包含开源模型通义千问Qwen-3.5-Max、MiniMax m2.5、GLM-4.5、Kimi K2.5、DeepSeek V3.2闭源模型Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Pro。
此外,选取了两款主流框架参与评测:qwen-code和Cursor。
性能表现结果显示,当OpenGame以Claude Sonnet 4.6作为底层推理引擎时,达到了目前业内最优水平,项目构建完整性BH=72.4、视觉可用度VU=67.2、需求契合度IA=65.1
侧重画面表现的模型(如Gemini 3.1 Pro)在视觉可用度上领先,但需求契合度偏低;而代码专用模型(如DeepSeek V3.2)项目构建完整性表现优异,视觉效果和需求匹配得分却偏弱。
搭载GameCoder-27B的OpenGame评测结果,在构建完整性需求契合度两项指标上,超越了所有开源、闭源的普通大模型基线,具备不俗竞争力。
OpenGame虽然整体达到了业界最优水平,但在不同交互游戏场景下的优势表现仍有所差异。例如,在以物理机制、空间场景为主的游戏中表现最强,平台跳跃类达76.8分,俯视角射击类为71.4分;策略类(58.2分)解谜类(52.6分)这类更抽象的游戏类型上,所有系统的效果都出现明显下滑。
门槛再次降低
重塑游戏创作生态

论文提到,性能上限也反映出本质难题:把模糊的自然语言需求,转化为逻辑、渲染、资源管理相互自洽、可正常游玩的多文件游戏工程,本身就极具挑战。

游戏中逻辑出现不同步,往往不会显性报错,既没有编译警告,也不会造成程序崩溃,由于缺少明显的异常追踪信号,智能体在自动调试过程中很难发现并修复这类隐性问题,这为后续研究指明了一个重要优化方向。

总的来看,OpenGame的一大价值,是把网页游戏开发的技术门槛彻底拉低了。

以往做游戏要懂引擎、会编程、还要处理复杂的多文件兼容问题,如今依靠专用模型与模板化、可迭代的智能体能力,策划、创作者、独立开发者都能快速做原型、快速验证玩法,让创意不再受技术能力束缚。

OpenGame的技术范式不仅适用于网页小游戏创作,也具备向交互式教育应用、仿真模拟场景、互动H5内容等领域延伸的潜力。

随着框架开源共享与技术持续迭代,AI将重塑游戏行业的生产模式,形成“人类主导创意设计、智能体承接工程落地”的全新协作形态,有望催生海量轻量化小游戏、教育互动游戏、休闲创意小游戏,让行业内容供给更加丰富。

-END-

活动推荐