AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

时间：2025-03-04 16:24:16 来源：24直播网

加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）上周五开展了一项独特的研究，将人工智能（AI）引入经典游戏《超级马力欧兄弟》中，以测试其性能表现。研究结果显示，在参与测试的 AI 模型中，Anthropic 的 Claude 3.7 表现最为出色，紧随其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。

需要明确的是，此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中，并通过一个名为 GamingAgent 的框架与 AI 进行连接，从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发，其向 AI 提供基本指令，例如“如果附近有障碍物或敌人，向左移动或跳跃以躲避”，同时还提供游戏内的截图。随后，AI 通过生成 Python 代码的形式来操控马力欧。

据实验室介绍，该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是，实验发现像 OpenAI 的 o1 这样的推理模型（它们通过逐步思考问题来得出解决方案）表现不如“非推理”模型，尽管它们在大多数基准测试中通常表现更强。研究人员指出，推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中，时机至关重要，一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。

数十年来，游戏一直是衡量 AI 性能的重要工具。然而，一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比，游戏往往是抽象且相对简单的，并且能够为 AI 训练提供理论上无限的数据。

IT之家注意到，最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西（Andrej Karpathy）所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道：“我目前真的不知道该关注哪些 AI 指标。”他总结道：“我的反应是，我目前真的不知道这些模型到底有多好。”

标签模型推理操作马力超级兄弟

上一篇：新华社采访多位国内游戏制作人：国产单机游戏未来拥有无限的可能！

下一篇： mayumi更博晒照：一周内就抵达中国

AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

热门数据

相关信息

真实电竞：我年年支持T1下赛季AD绝对支配比赛Photic有这能力吗

Smash：DK输了很多次所以我今年一定要好好表现创造美好的回忆

影片《阿凡达3》预售总票房突破2000万

Sask：我不敢想LPL收费会怎么样LCK收费但不用你们交就像CS一样

Faker谈决赛交手Gumayusi：上次决赛我们输给HLE这一次一定要赢

可以应援的队伍有点多！peanut：我可以为HLEGENT1NSKT应援

拳头发布深海泰坦十年海底照片：侵蚀留下痕迹诺提勒斯依然屹立

外网爆料：战斗学院系列回归，春节皮肤英雄名单出炉

Peanut被粉丝建议去当偶像：可以吗没有LOL我过不上这样的生活

TES发布Creme庆生视频：祝Creme选手生日快乐

12月13日NBA常规赛森林狼勇士全场录像

12月13日NBA常规赛爵士灰熊全场录像

12月12日CBA常规赛揭幕战广厦山西全场录像

12月12日NBA常规赛凯尔特人雄鹿全场录像

12月11日NBA杯14决赛太阳雷霆全场录像

12月10日NBA杯14决赛尼克斯猛龙全场录像

12月09日NBA常规赛马刺鹈鹕全场录像

12月08日CBA俱乐部杯长沙赛区小组赛山东青岛全场录像

12月08日NBA常规赛掘金黄蜂全场录像

12月07日CBA俱乐部杯南昌赛区淘汰赛上海香港金牛全场录像

相关集锦

NBA杯尼克斯力克魔术挺进决赛布伦森40+8萨格斯26+7&伤退

NCAA常规赛加州大学戴维斯分校62104俄勒冈大学集锦

新疆击败福建迎开门红两队共52次犯规齐麟21+6特莱斯32分

库里复出空砍39分勇士不敌无华狼戈贝尔24+14迪文关键三分

独行侠力克篮网浓眉24+14弗拉格22+8小波特空砍34分

莫兰特复出21+10灰熊憾负爵士！乐福20分钟20+8乔治39+6+8

米切尔末节24分&怒砍赛季新高48分！骑士逆转送奇才4连败

76人主场力克步行者恩比德赛季新高39+9乔治23+6+5

活塞8人上双大胜老鹰迎3连胜康宁汉姆15+7约翰逊19+11+11

公牛7人上双逆转黄蜂止7连败吉迪26+11克尼佩尔砍新高33分

热门TAG