全球电脑科学界最高荣誉「图灵奖」于2024年颁发给两位人工智慧(AI)领域的先锋:安德鲁·巴托(Andrew Barto)博士和理查德·萨顿(Richard Sutton)博士,以表彰他们在「强化学习」领域的开创性贡献。
美国电脑协会(ACM)于週三正式宣布此消息。巴托博士现为麻省大学荣誉退休教授,萨顿博士则任职于亚伯达大学,并曾担任DeepMind研究科学家。两人将共同分享100万美元的奖金。图灵奖设立于1966年,被誉为「电脑科学界的诺贝尔奖」。
「他们是强化学习领域无庸置疑的先驱。」华盛顿大学电脑科学荣誉退休教授奥伦·埃特齐恩(Oren Etzioni)表示,「他们提出了关键概念,并撰写了该领域的权威着作。」
强化学习推动AI发展
在过去十年中,强化学习在AI的崛起中扮演了至关重要的角色,包括Google的AlphaGo和OpenAI的ChatGPT等突破性技术,都得益于巴托博士和萨顿博士的研究成果。
1977年,巴托博士在麻省大学阿默斯特分校担任研究员时,开始探索一种新的理论,即神经元的行为类似于享乐主义者。其核心理念是,人类大脑由数十亿个神经细胞驱动,每个神经细胞都在努力将愉悦感最大化,痛苦感最小化。
一年后,萨顿博士加入他的行列。他们共同努力,将这个简单的概念应用于AI领域,催生了「强化学习」——一种让AI系统从数位世界的「愉悦」与「痛苦」中学习的方法。
AlphaGo、ChatGPT背后功臣
2016年,AlphaGo击败围棋世界冠军李世乭,震惊全球。这场AI的「登月时刻」正是强化学习的威力展现。Google DeepMind团队核心成员大卫·席尔瓦(David Silver)正是萨顿博士在亚伯达大学的学生。透过数百万次的自我对弈,系统建立起「胜者愉悦-败者痛苦」的回馈机制,最终突破人类千年围棋智慧。
这种学习模式在ChatGPT等大型语言模型中持续进化。2022年底,OpenAI透过「人类回馈强化学习」(RLHF)技术,让数百名标注员引导模型优化应答。当聊天机器人学会辨别优质回答并获得「奖赏」时,其对话能力产生了质的飞跃。近期,DeepSeek等企业更开发出自主强化学习系统,使AI能像解数学题般,透过试错掌握逻辑推理能力。
现年76岁的巴托教授指出:「透过强化学习控制物理躯体,将是自然演进的下个阶段。」目前任职于Keen Technologies的萨顿博士也认为,当前基于文字的学习只是序章,未来机器人将在真实世界中像生物般试错成长。
巴托博士和萨顿博士的贡献,不仅为AI领域带来了革命性的突破,也为我们描绘了AI发展的无限可能。