包括 OpenAI、微软和 Meta 在内的领先人工智慧公司,在全球竞相开发更便宜、更易于消费者和企业採用的 AI 模型之际,正纷纷转向一种名为「蒸馏」的技术。
中国的 DeepSeek 公司利用这项技术,基于竞争对手 Meta 和阿里巴巴发布的开源系统,构建了强大而高效的 AI 模型,此举引起了广泛关注。 这个突破动摇了人们对硅谷 AI 领导地位的信心,导致华尔街投资者从美国大型科技股中抹去了数十亿美元的市值。
「蒸馏」技术:AI 模型轻量化的关键
「蒸馏」技术的核心概念是利用一个大型语言模型 (LLM),也就是所谓的「教师」模型,来指导一个较小的「学生」模型。教师模型负责生成句子中下一个可能的词,并将其知识和预测快速转移到学生模型中。透过这种方式,学生模型能够在保持一定性能的同时,大幅降低模型的大小和计算成本。
虽然「蒸馏」技术已存在多年,但近年来的进展使其在业界备受关注。专家认为,这种技术将越来越有利于新创公司,帮助它们以更经济高效的方式构建基于 AI 的应用程式。
OpenAI 平台产品负责人 Olivier Godement 表示:「蒸馏非常神奇。它本质上是採用一个非常大的智慧前沿模型,并使用该模型来教导一个较小的模型……在特定任务中非常出色,而且执行起来超级便宜和超级快速。」
「蒸馏」技术的优势与挑战
「蒸馏」技术的主要优势在于降低了 AI 模型的开发和运行成本。像 OpenAI 的 GPT-4、Google 的 Gemini 和 Meta 的 Llama 等大型语言模型需要大量的数据和计算能力来开发和维护,成本可能高达数亿美元。而透过「蒸馏」技术,开发人员和企业可以以一小部分的价格访问这些模型的功能,并在笔记型电脑和智慧型手机等设备上快速运行 AI 模型。
然而,「蒸馏」技术也存在一些挑战。微软研究院的 Ahmed Awadallah 指出:「如果你使模型更小,你不可避免地会降低它们的能力。」他表示,一个蒸馏模型可以被设计成非常擅长总结电子邮件,但可能不擅长其他任务。
开发者可以使用 OpenAI 的平台进行蒸馏,从 ChatGPT 等产品背后的大型语言模型中学习。 OpenAI 最大的支持者微软,在向该公司投资近 140 亿美元后,透过商业合作伙伴关係使用 GPT-4 来蒸馏其小型语言模型 Phi 系列。
IBM 研究院的 AI 模型副总裁 David Cox 表示,大多数企业不需要大型模型来运行其产品,而蒸馏模型的功能已经足够强大,可以满足客户服务聊天机器人或在手机等小型设备上运行等用途。
他补充说:「任何时候你可以 [降低成本] 并且它给你了你想要的正确性能,你都几乎没有理由不这样做。」
这对许多领先 AI 公司的商业模式提出了挑战。 即使开发者使用来自 OpenAI 等公司的蒸馏模型,它们的运行成本也远低于大型模型,创建成本也更低,因此产生的收入也更少。 像 OpenAI 这样的模型制造商通常会降低蒸馏模型的使用费用,因为它们需要的计算负载更少。
然而,OpenAI 的 Godement 认为,大型语言模型仍然是「高智慧和高风险任务」所必需的,在这些任务中,「企业愿意为高水準的準确性和可靠性支付更多费用。」 他补充说,大型模型也将被需要来发现新的功能,然后可以将这些功能蒸馏到较小的模型中。
儘管如此,该公司仍旨在防止其大型模型被蒸馏来训练竞争对手。 OpenAI 有团队监控使用情况,并且可以取消它怀疑正在生成大量数据以导出和训练竞争对手的用户的访问权限,就像它对一些它认为与 DeepSeek 有关联的帐户所做的那样。然而,许多此类行动都是在事后发生的。毕竟在事前很难预防别人利用自家的大模型去进行「蒸馏」训练。
Contextual AI 是一家为企业构建信息检索工具的新创公司。Contextual AI 首席执行长 Douwe Kiela 表示:「OpenAI 长期以来一直试图防止蒸馏技术,但完全避免它非常困难。」
同时,蒸馏技术也是开源模型倡导者的胜利,在开源模型中,技术可以免费提供给开发人员在此基础上进行构建。 DeepSeek 也已将其最近的模型开源给开发者。
像是 Meta 的首席 AI 科学家 Yann LeCun 表示:「我们将使用 [蒸馏技术] 并立即将其应用于我们的产品中。 这就是开源的全部理念。 只要这些过程是开放的,你就可以从每个人和他人的进步中获益。」
蒸馏技术也意味着,模型制造商可以花费数十亿美元来提升 AI 系统的功能,但仍然面临竞争对手经常快速赶上的局面,正如 DeepSeek 最近发布的模型所证明的那样。 这就引发了关于构建大型语言模型的先行者优势的问题,因为它们的功能可以在几个月内被複制。
IBM 的 Cox 表示:「在一个事物发展如此迅速的世界里……你实际上可能会花费大量资金,以艰难的方式去做,然后该领域的其他人就会紧随其后。 因此,这是一个有趣且棘手的商业格局。」