ADVERTISEMENT
当前人工智慧(AI)发展日新月异,各界不断寻找更有效且具代表性的基準测试,以评估AI模型的真实能力。继《宝可梦》之后,有研究团队认为,经典游戏《超级玛利欧兄弟》(Super Mario Bros.)可能是一个更具挑战性的新选择。加州大学圣地牙哥分校(University of California, San Diego)郝人工智能实验室(Hao AI Lab)近期便进行了一项实验,将多个知名AI模型投入《超级玛利欧兄弟》的即时游戏环境中,测试其表现。
根据实验结果,Anthropic 的 Claude 3.7 模型表现最为出色,其次为 Claude 3.5。相较之下,Google 的 Gemini 1.5 Pro 与 OpenAI 的 GPT-4o 在此项测试中则显得力不从心。值得注意的是,本次实验所使用的《超级玛利欧兄弟》版本并非完全还原1985年的初代版本,而是在模拟器环境下运行,并整合 GamingAgent 框架,以便让AI模型能够控制游戏中的玛利欧角色。
Hao AI Lab 自行开发的 GamingAgent 框架,主要负责向AI模型提供如「若侦测到障碍物或敌人接近,向左移动/跳跃闪避」等基本指令,以及游戏画面的截图。接着,AI模型需要自行生成 Python 程式码形式的指令,来操控玛利欧在游戏中的行动。
实验室主持人 Hao 指出,相较于其他基準测试,《超级玛利欧兄弟》迫使AI模型必须「学习」规划複杂的操作,并制定即时的游戏策略。一个有趣的发现是,研究团队观察到,擅长推理的模型,例如 OpenAI 的 o1 模型(透过逐步「思考」问题来找出解决方案),在本次测试中的表现反而不如「非推理型」模型。儘管推理模型在多数基準测试中往往展现更强大的能力。
研究人员分析,推理模型在应对此类即时游戏时遭遇瓶颈,主要原因之一在于其决策过程需要一定的时间延迟——通常为数秒。然而,在《超级玛利欧兄弟》这类分秒必争的游戏中,时间至关重要。短短一秒的延迟,可能就决定了角色是成功跳跃躲避障碍,或是失足坠入深渊。
数十年来,游戏一直被视为评估AI能力的基準之一。然而,部分专家开始质疑,将AI在游戏中的技能表现,与技术的实际进展过度连结是否恰当。相较于複杂多变的现实世界,游戏环境往往是经过抽象化、相对简化的,且理论上,游戏能为AI训练提供近乎无限量的数据。
近期,OpenAI 的研究科学家暨创始成员 Andrej Karpathy 更坦言,他正 面临一场「评估危机」。他在社群平台 X 上发文表示:「我真的不知道现在该关注哪些 [AI] 指标。总之,我的反应是我真的不清楚这些模型现在有多厉害。」
儘管如此,至少我们现在可以透过观察AI模型游玩《玛利欧》的表现,一窥当前AI技术的发展现况。