【球盟会】游戏代码，居然能完美用于AI推理——字节&复旦新成果！

发表评论

A+

摘要

昨天给大家介绍了谷歌、英伟达等多家科技巨头投资的首款A游戏引擎Mirage，希望利用生成式AI彻底改变游戏行业，号称是一句话实现生成GTA世界，开发者仅需要给引擎输入自然语言指令，就能实时生成GTA级的开放世界游戏场景！今天给大家介绍的这个成果来自字节跳动和复旦大学放在arxiv上的最新论文项目，他们发现如果将推箱子、马里奥和我的世界等类似的游戏场景用于AI大模型的训练，可以让大模型的推理效率变得更高，而且游戏代码数据还有很多意想不到的效果！

球盟会官网报道

【新人豪礼】新会员专享注册送88元体验金，存100送100，再送免费游戏局
【存款返赠】使用虚拟币支付额外再赠2%，均可获赠58元红包优惠券！
最佳投注体验，超高游戏赔付，千场精彩赛事，下载体育APP，等你来战。

01 我的世界

想象一下这个场景：

一个汇集了人类顶尖科技、价值连城的先进人工智能，

和一个能够同时理解图像和语言的“视觉语言模型”，

直接被应用到《我的世界》的像素世界里，

AI很有可能会犯和萌新一样的错误，

就是用木镐或石镐去采集钻石，

而字节&复旦的新项目就是希望解决这个问题——

当今许多强大的人工智能“视力”很好，

可以快速分辨出物体场景，

但是却缺乏我们玩家称之为“游戏常识”的推理能力，

AI可以看清“是什么”，

却对“该怎么做”一头雾水，

就像是一个拥有神之眼，却拿着新手木镐的玩家，

空有屠龙之力，却总在第一关被史莱姆干掉。

02 AI训练

要理解这场革命的意义，我们得先聊聊AI训练，

本质来说，训练一个AI就像是在MMORPG中练级，

AI需要经验值来提升等级，

在AI的世界里，这些经验值被称为“训练数据”，

但是并非所有的数据都能提供等量的经验，

所以为了让AI学会复杂的推理能力，

它需要一种极其稀有、品质极高的“神装级”数据，

AI领域一般称其为“视觉语言思维链”

（Visual-language Chain-of-Thought, CoT）数据，

简单来说就是一种融合视觉与语言模态的推理技术，

可以通过模拟人类“分步思考”的过程，

将复杂任务拆解为可管理的中间步骤，

最终生成逻辑连贯的决策或答案，从而获得推理能力。

03 肝帝数据

我们可以把CoT数据想象成一本终极游戏攻略，

它不是那种Boss在xx位置的简单提醒，

而是一本详尽到令人发指的、图文并茂的保姆级教程，

它会展示一张游戏截图，

然后附上一段完整的、一步不落的思考过程，

这种思维链只要是大家用过DeepSeek R1推理模型基本上都见过，

但是高质量的CoT思维链一直非常稀缺，

因为传统的获取方法实在是太肝了，

需要大量人力进行手动标注，

你可以把它想象成游戏工作室代肝，

雇佣成千上万的人，让他们玩游戏，

并要求他们把自己每时每刻的每一个想法、

每一个决策步骤都原封不动地写下来，精确到每一帧画面，

这也导致很多强大的AI模型被困死逻辑推理的新手村里，无法升级。

04 游戏代码

面对这样的情况，国内字节跳动和复旦大学的研究者们，

迎来了他们的“尤里卡时刻”——

他们意识到每一个电子游戏，

本质都是一个完美的、自洽的、可执行的逻辑宇宙，

游戏的代码本身，就是一本写得天衣无缝的“思维链攻略本”，

当玩家按下“跳跃”键时，

代码精确地定义了角色的起跳速度、

抛物线轨迹、碰撞检测以及最终的落地状态，

这就是一条完美无瑕、内置于游戏世界的因果链，

这个绝妙的想法也直接催生了《Code2Logic》论文项目。

05 训练细节

通俗来看，研究者们差不多是分三步来利用游戏代码训练AI模型，

第一步是获取这个逻辑宇宙的世界规则，

首先研究者用LLM大模型来辅助生成或改编各种游戏的源代码，

你可以把LLM想象成一个顶级的游戏开发者或者《我的世界》里的创世神，

用代码构建出一个数字世界，并明确定义了其中的物理法则和交互规则，

比如《推箱子》这个游戏，LLM可以生成Python代码，

精确定义玩家的位置、箱子的位置、墙壁的坐标，

还有一个核心的移动函数，封装了所有状态转换的逻辑。

第二步世界地图建好后，LLM会继续扮演“任务设计师”的角色，

为即将进入这个世界的AI玩家设计一系列“任务”，

这些任务就是所谓的VQA视觉问答模板，

为了让AI得到全方位的锻炼，这些任务还被精心设计成了三种由浅入深的任务类型，

对我们玩家来说简直再熟悉不过了：

第一种是目标感知任务，类似于大家来找茬，考验AI对静态画面的基本理解能力；

第二种是状态预测任务，类似于狼人杀的预言家，要求AI根据一系列给定的操作，预测游戏世界的未来状态；

第三种是策略优化任务，这是最高级的任务，要求AI找到解决问题的最优解，比如推箱子残局中，最少需要多少步，这类任务不仅要求AI会推理，还要求AI可以进行高效有策略的规划。

06 构建数据引擎

接下来最后一步，研究者们构建了一个被称为“数据引擎”的程序，

可以理解为游戏界有史以来最精密的“挂机脚本”，

这个自动化程序同样在LLM的协助下构建，

可以接管第一步生成好的游戏代码和第二步设计好的问答模板，

然后开始大规模地、不知疲倦地“刷数据”，

比如脚本会自动生成无数个全新的游戏开局，

像是《俄罗斯方块》里随机生成方块序列，

然后脚本执行随机的操作序列，

最后利用游戏代码那完美无瑕的逻辑，

自动填写那本“终极攻略本”（也就是CoT数据）。

对比人力劳动手动标注，

这种直接用游戏数据引擎自动生成的CoT显然更加完美，而且成本也要更低！

07 GameQA数据集：魂游般的难度

复旦大学和字节跳动团队将这个挂机脚本产生的数据，

命名为GameQA数据集，

由30款风格迥异的游戏构成，包含了158个独特的任务类型，

总共生成了超过14万个令人绞尽脑汁的问答数据对！

更关键的一点是，GameQA的难度极高，

研究者还偶然发现，即便是当前最顶尖的，

所谓“SOTA”（State-of-the-art）的AI模型，

在面对GameQA的挑战时也纷纷折戟，

这也说明GameQA不是一堆AI能轻易解决的“小儿科”问题，

所以研究者们戏称这是AI界的《黑暗之魂》，

难度高到令人发指，

但每一次“受苦”都充满了学习价值，公平且能真正锻炼技术。

08 未来

讲到这里，我尽量用玩家大家都能懂的语言来描述Code2Logic在做的事情，

这次实验主要采用的是规则相对明确的益智和街机游戏，

但是如果把这种方法扩展到较为复杂的模拟经营类游戏，

可能很难教会AI理解复杂的物流系统、供应链管理这些逻辑，

而且现实世界充满了混乱、模糊、矛盾和非理性，

一个在高度结构化的环境中训练出来的AI，

是否会因此产生一种“思维定势”，

难以处理现实世界中那些没有标准答案的复杂问题。

不过，游戏世界的美妙之处就在于规则逻辑非常明确，

代码规定了什么能做，什么不能做，一切都有清晰的边界，

这次研究已经证明了纯游戏数据训练的有效性，

那么未来如果将这种高质量的合成数据与传统的真实世界数据结合起来进行训练，

又会产生怎样的效果，在未来这或许也是提升AI能力的一个重要方向，

我推荐大家再往深处思考，本文的方法论其实也可以反哺游戏本身，

既然AI可以通过理解游戏代码来学习推理，

那么未来的游戏NPC是否也能通过同样的方式，

获得真正智能的、符合游戏规则的行为模式？

由于时间关系，本文到这里也就结束了，

未来有机会我再跟大家聊聊业界内关于游戏NPC的一些研究成果！

游戏&AI系列：

AI——是游戏NPC的未来吗？

巫师三——AI如何帮助老游戏画质重获新生

你的游戏存档——正在改写人类药物研发史

无主之地3——臭打游戏，竟能解决人类大肠便秘烦恼

一句话造GTA——全球首款A游戏引擎Mirage上线

AI女装换脸——FaceAPP应用和原理

AI捏脸技术——你想在游戏中捏谁的脸？

Epic虚幻引擎——“元人类生成器”游戏开发（附教程）

脑机接口——特斯拉、米哈游的“魔幻未来技术”

白话科普——Bit到底是如何诞生的？

永劫无间——肌肉金轮，AI如何帮助玩家捏脸？

Adobe之父——发明PDF格式，助乔布斯封神

FPS游戏之父——谁是最伟大的游戏程序员？

《巫师3》MOD——制作教程，从零开始！

#gd的ai&游戏杂谈#

下注网址直达：球盟会官网

关于球盟会

球盟会与世界领先合法博彩娱乐平台系统商进行技术上合作。提供有亚洲最多元，专业，顶尖，公正，安全的线上娱乐产品服务，畅享无与伦比的游戏体验。

球盟会提供给玩家的娱乐产品丰富多样化，有多种特色老虎机任您选择。加入球盟会，畅享无与伦比的游戏体验。选择球盟会，绝对是您最明智的选择!

前往 球盟会官网

球盟会官网最佳投注体验,超高游戏赔付,千场精彩赛事,下载球盟会APP,等你来战!,注册送88元,首存豪礼送不停,美女宝贝双飞空降,夜夜笙箫

以上内容由球盟会(www.qm-hui.com)整理发布。