OpenGame:首个开源 AI 端到端网页游戏生成框架 – (附系列深度研究报告)-夜雨聆风

OpenGame:首个开源 AI 端到端网页游戏生成框架 – (附系列深度研究报告)

你用过 AI 写游戏代码吗？

大概率有过。输入”用 Phaser 写一个太空射击游戏”，AI 会给你一堆看起来很合理的代码，语法没问题，逻辑好像也通，顺手点个运行——

然后黑屏。或者报错。或者飞船能动了但子弹穿过敌人没反应。

这是 AI 写游戏最常见的结果：代码看起来是对的，游戏是玩不了的。

现在，有人认真解决了这个问题。

不是”看起来能玩”，是真的能玩

这个项目叫 OpenGame，4月21日刚在 GitHub 上线，论文挂在 arXiv，技术报告有几十页那么长。核心结论只有一句话：

它在 150 个游戏测试集上，让 AI 从”生成看起来对的代码”进化到”交付真的能跑的游戏”，成功率从 25% 拉到了 65%。

这是什么意思？

之前，你让 AI 写一个 Flappy Bird，它可能给你一个看起来完整的代码文件——但你打开，鸟不会飞，柱子不显示，游戏循环根本不起动。现在，OpenGame 生成的游戏，85% 可以端到端跑完，从打开到游戏结束，是一个完整的体验。

这个差距，不是代码质量的问题，是整个做事情的方式变了。

它怎么做到的

OpenGame 有三个核心组件，理解了它们，你就理解了这件事的真正价值。

第一个：Game Skill。

你可以把它理解成”游戏开发的套路库”。它把成熟的开发经验——怎么搭项目结构、怎么组织游戏循环、怎么写碰撞检测——变成 AI 可以直接调用的技能模块。

就像一个有十年经验的老开发者坐在旁边告诉你”这里应该这样搭”，但 AI 不会累，不会忘，随时都在。

第二个：GameCoder-27B。

这是一个专门训练过的模型，参数规模 270 亿。专到什么程度？它学的内容全跟游戏开发相关：引擎文档、开源游戏项目、Phaser 怎么用、Three.js 怎么搭、物理引擎的坑在哪里。

然后它经过三轮训练：先灌游戏开发知识，再做监督微调（看成熟的游戏是怎么从零搭起来的），最后用”以玩定学”的方式做强化学习——也就是说，AI 生成一个游戏，跑出来能玩才给它高分，跑不出来就扣分。

这个训练方式很关键。它不是”代码看起来对不对”，而是”游戏能不能玩”。

第三个：OpenGame-Bench。

这是最难的部分，也是最有意思的部分。

怎么让 AI 自动判断一个游戏”好不好玩”？传统的代码测试可以跑单元测试，但游戏没有单元测试，游戏只有”你玩的时候感觉对不对”。

OpenGame 的做法是：用无头浏览器跑生成的游戏，然后用视觉语言模型（VLM）去看截图，判断画面有没有正确渲染、控制有没有响应、状态有没有正常推进。

简单说：它让 AI 看 AI 做出来的游戏，判断”这玩意儿是不是真的能玩”。

这个思路本身就挺有意思的。

一个数字背后的问题

测试集里有个关键对比数字：

传统方案：端到端可运行率约 40%，单次生成成功率约 25%。 OpenGame：可运行率约 85%，单次生成成功率约 65%，平均修复轮次 2.3 轮。

翻了一倍多。

但更有意思的是”平均修复轮次 2.3 次”这个数字。它意味着即使这一次没完全做对，AI 还有能力自己发现问题、自己修、然后再试一次。基本上跑两三轮，就能把一个”看起来像游戏但不能玩”的东西修成”真的能玩”的游戏。

这是传统 AI 代码工具根本没有的能力。大多数 AI 生成代码，你不给它明确的反馈，它就停在那个错误的状态不动了。

独立开发者真正的机会

说这些技术细节，是因为它们决定了这件事对谁真正有价值。

答案是：独立开发者，或者想做独立游戏但不会写代码的人。

OpenGame 目前的定位是网页游戏，生成的是 HTML + JavaScript 文件，打开浏览器就能玩。不需要买服务器，不需要懂部署，输入一行指令，等几分钟，一个游戏就出来了。

这不是”AI 帮你写代码”——这是”AI 帮你做产品”。

你告诉它”做一个俄罗斯方块，要求双人对战，加分系统，难度递增”，它给你一个完整的、可运行的文件，双人俄罗斯方块，可以跑。你告诉它”做一个步行模拟器，主角在城市里行走，路人会跟主角打招呼”，它给你一个完整的模拟器。

这才是这件事真正让创作者兴奋的地方。

不是”代码写得好看了”，是”想法到产品的距离，短了一大截”。

当然，这个阶段也有它的问题

OpenGame 现在能做的，主要是 2D 游戏、网页游戏，复杂度有上限。它解决的是”能不能跑”，不是”跑得好不好玩”——游戏性这个维度，AI 现在帮不了你。

还有一个问题是：GameCoder-27B 需要 GPU 环境才能跑，本地部署的门槛不低。当然也可以调用 API，但那是另一套成本计算。

但这些是”现在的局限”，不是”这件事做错了”。

回到开头那个问题：AI 写游戏为什么一直差点意思？

因为游戏的”可运行”标准，不是代码对不对，而是体验完不完整。传统 AI 工具在”代码对不对”上已经很厉害了，但在”游戏能不能玩”这个维度上，一直交不出合格的答卷。

OpenGame 做的事情，本质上是把”能不能玩”变成一个可以自动评估、自动修复、自动迭代的过程。

这条路走通了，意义不只是”AI 能做游戏了”。

是”AI 做出来的东西，终于和用户实际用到的产品对上了”。

关于该项目我们收集了很多可以进一步分享的资料和工具链。如果感兴趣可以在留言区评论说“想了解下”。我们会投递发给您。

主编：珊珊 & 小玫