乐于分享
好东西不私藏

OpenGame:首个开源 AI 端到端网页游戏生成框架 – (附系列深度研究报告)

OpenGame:首个开源 AI 端到端网页游戏生成框架 – (附系列深度研究报告)

你用过 AI 写游戏代码吗?

大概率有过。输入”用 Phaser 写一个太空射击游戏”,AI 会给你一堆看起来很合理的代码,语法没问题,逻辑好像也通,顺手点个运行——

然后黑屏。或者报错。或者飞船能动了但子弹穿过敌人没反应。

这是 AI 写游戏最常见的结果:代码看起来是对的,游戏是玩不了的。

现在,有人认真解决了这个问题。


不是”看起来能玩”,是真的能玩

这个项目叫 OpenGame,4月21日刚在 GitHub 上线,论文挂在 arXiv,技术报告有几十页那么长。核心结论只有一句话:

它在 150 个游戏测试集上,让 AI 从”生成看起来对的代码”进化到”交付真的能跑的游戏”,成功率从 25% 拉到了 65%。

这是什么意思?

之前,你让 AI 写一个 Flappy Bird,它可能给你一个看起来完整的代码文件——但你打开,鸟不会飞,柱子不显示,游戏循环根本不起动。现在,OpenGame 生成的游戏,85% 可以端到端跑完,从打开到游戏结束,是一个完整的体验。

这个差距,不是代码质量的问题,是整个做事情的方式变了。


它怎么做到的

OpenGame 有三个核心组件,理解了它们,你就理解了这件事的真正价值。

第一个:Game Skill。

你可以把它理解成”游戏开发的套路库”。它把成熟的开发经验——怎么搭项目结构、怎么组织游戏循环、怎么写碰撞检测——变成 AI 可以直接调用的技能模块。

就像一个有十年经验的老开发者坐在旁边告诉你”这里应该这样搭”,但 AI 不会累,不会忘,随时都在。

第二个:GameCoder-27B。

这是一个专门训练过的模型,参数规模 270 亿。专到什么程度?它学的内容全跟游戏开发相关:引擎文档、开源游戏项目、Phaser 怎么用、Three.js 怎么搭、物理引擎的坑在哪里。

然后它经过三轮训练:先灌游戏开发知识,再做监督微调(看成熟的游戏是怎么从零搭起来的),最后用”以玩定学”的方式做强化学习——也就是说,AI 生成一个游戏,跑出来能玩才给它高分,跑不出来就扣分。

这个训练方式很关键。它不是”代码看起来对不对”,而是”游戏能不能玩”。

第三个:OpenGame-Bench。

这是最难的部分,也是最有意思的部分。

怎么让 AI 自动判断一个游戏”好不好玩”?传统的代码测试可以跑单元测试,但游戏没有单元测试,游戏只有”你玩的时候感觉对不对”。

OpenGame 的做法是:用无头浏览器跑生成的游戏,然后用视觉语言模型(VLM)去看截图,判断画面有没有正确渲染、控制有没有响应、状态有没有正常推进。

简单说:它让 AI 看 AI 做出来的游戏,判断”这玩意儿是不是真的能玩”。

这个思路本身就挺有意思的。


一个数字背后的问题

测试集里有个关键对比数字:

传统方案:端到端可运行率约 40%,单次生成成功率约 25%。 OpenGame:可运行率约 85%,单次生成成功率约 65%,平均修复轮次 2.3 轮。

翻了一倍多。

但更有意思的是”平均修复轮次 2.3 次”这个数字。它意味着即使这一次没完全做对,AI 还有能力自己发现问题、自己修、然后再试一次。基本上跑两三轮,就能把一个”看起来像游戏但不能玩”的东西修成”真的能玩”的游戏。

这是传统 AI 代码工具根本没有的能力。大多数 AI 生成代码,你不给它明确的反馈,它就停在那个错误的状态不动了。


独立开发者真正的机会

说这些技术细节,是因为它们决定了这件事对谁真正有价值。

答案是:独立开发者,或者想做独立游戏但不会写代码的人。

OpenGame 目前的定位是网页游戏,生成的是 HTML + JavaScript 文件,打开浏览器就能玩。不需要买服务器,不需要懂部署,输入一行指令,等几分钟,一个游戏就出来了。

这不是”AI 帮你写代码”——这是”AI 帮你做产品”。

你告诉它”做一个俄罗斯方块,要求双人对战,加分系统,难度递增”,它给你一个完整的、可运行的文件,双人俄罗斯方块,可以跑。你告诉它”做一个步行模拟器,主角在城市里行走,路人会跟主角打招呼”,它给你一个完整的模拟器。

这才是这件事真正让创作者兴奋的地方。

不是”代码写得好看了”,是”想法到产品的距离,短了一大截”。


当然,这个阶段也有它的问题

OpenGame 现在能做的,主要是 2D 游戏、网页游戏,复杂度有上限。它解决的是”能不能跑”,不是”跑得好不好玩”——游戏性这个维度,AI 现在帮不了你。

还有一个问题是:GameCoder-27B 需要 GPU 环境才能跑,本地部署的门槛不低。当然也可以调用 API,但那是另一套成本计算。

但这些是”现在的局限”,不是”这件事做错了”。


回到开头那个问题:AI 写游戏为什么一直差点意思?

因为游戏的”可运行”标准,不是代码对不对,而是体验完不完整。传统 AI 工具在”代码对不对”上已经很厉害了,但在”游戏能不能玩”这个维度上,一直交不出合格的答卷。

OpenGame 做的事情,本质上是把”能不能玩”变成一个可以自动评估、自动修复、自动迭代的过程。

这条路走通了,意义不只是”AI 能做游戏了”。

是”AI 做出来的东西,终于和用户实际用到的产品对上了”。


关于该项目我们收集了很多可以进一步分享的资料和工具链。如果感兴趣可以在留言区评论说“想了解下”。我们会投递发给您。

主编:珊珊 & 小玫