人工智慧(AI)再次展现其强大的学习能力,这次的目标是经典游戏《宝可梦 红》。一项名为「Pokémon RL Edition」的计画,成功利用AI代理通关了这款1996年发售的游戏,而令人惊讶的是,该AI的参数规模仅为DeepSeek-V3的约六万分之一。
该计画採用了强化学习(Reinforcement Learning)方法,这是一种透过在动态环境中反覆试验并收集经验来学习的方法,旨在最大化目标设定的报酬。与依赖静态数据集的传统方法不同,强化学习更注重AI在与环境互动中自主学习的能力。
《宝可梦》等日式角色扮演游戏(JRPG)需要複杂的推理和决策,并且游戏时间长,对AI来说是一项极具挑战性的任务。专案团队认为,透过强化学习来通关JRPG,可以成为改善AI的一个优秀基準。
为了实现这一目标,专案团队利用宝可梦逆向工程团队(PRET)的工具,以及旨在透过Python进行Game Boy模拟的PyBoy,目标是透过强化学习代理来通关《精灵宝可梦》。选择强化学习的原因在于,相较于监督式学习,它不需要大量标记数据集、大型模型和预算。此外,强化学习还能避免报酬函数不明确的问题,让AI在学习过程中不断优化。
然而,在《宝可梦》中,存在许多可能导致无法通关的情况,例如无法获得所需的宝可梦、队伍配置不当、道具空间不足等。为了解决这些问题,专案团队在特定环境下嵌入了让代理执行特定动作的脚本。他们坦言,虽然希望不使用脚本就能通关,但在某些情况下,需要人类的直觉,而这些直觉无法直接从游戏中学习。
其中,攻略原野区被认为是最困难的部分。在这个区域,玩家必须获得关键道具「金假牙」,但由于步数限制和路线複杂,AI很难在没有辅助的情况下完成任务。为此,专案团队採用了获得与野生原野区剩余步数成比例的报酬的方法,经过数千次尝试后,AI终于成功通关。
目前,该专案已经完成了一个勉强可以通关《宝可梦》的AI代理,但尚未达到可以证明系统在禁用所有脚本的情况下也能稳定通关游戏的状态。儘管已经确认在单独删除各个脚本的情况下可以通关,但由于存在一些错误,因此仍有需要解决的课题。
专案团队表示,JRPG是通往更强大AI的垫脚石,但还有很多东西需要学习。
资料来源:https://gigazine.net/news/20250310-pokemon-rl-edition/