鸿海研究院宣布成功开发出首款繁体中文AI大型语言模型(LLM)「FoxBrain」,并计划开源分享,为台湾的AI发展注入强劲动力。这款模型不仅展现了强大的语言理解和推理能力,更针对台湾使用者的语言习惯进行了优化,在数学和逻辑推理测试中表现出色,凸显了台湾科技人才在AI领域的实力。

FoxBrain的技术亮点与训练策略

FoxBrain基于Meta Llama 3.1架构,拥有70B参数,并採用了一系列自主研发的技术。首先,团队建立了24类主题的资料增强方式与品质评估方法,生成了98B tokens高品质中文预训练资料,确保模型能够充分理解和掌握繁体中文的细微差别。其次,FoxBrain的上下文处理长度达到128K token,使其能够处理更长、更複杂的文本,并在理解上下文的基础上进行更準确的推理。

在训练过程中,鸿海研究院使用了120张NVIDIA H100 GPU,并透过NVIDIA Quantum-2 InfiniBand网路进行扩展,仅花费约四周的时间完成训练。相较于其他公司推出的推理模型,FoxBrain以更高的效率和更低的成本,为台湾AI技术发展树立了新的里程碑。此外,团队还採用了多节点平行训练架构,确保训练过程的高效能和稳定性,并使用独特的Adaptive Reasoning Reflection技术,训练模型学会自主推理,使其在数学和逻辑推理方面表现出色。

▲ FoxBrain 模型(对比Meta Llama 3.1 70B 与 Llama-3-Taiwan-70B) 在 TMMLU+ 上面几个重要领域的得分

FoxBrain的测试结果与应用前景

在TMMLU+测试资料集中,FoxBrain在大多数领域优于国内相同规模的Llama-3-Taiwan-70B,尤其在数学与逻辑推理方面展现了卓越能力。测试结果显示,FoxBrain在数学领域较基础模型Meta Llama 3.1全面提升,并在数学推理能力上超越了Meta目前已推出的同等级模型。虽然与DeepSeek的蒸馏模型仍有些微差距,但表现已相当接近世界领先水準。

FoxBrain的研发,从资料收集、资料清理与扩增、Continual Pre-Training、Supervised Finetuning、RLAIF、Adaptive Reasoning Reflection,以自主研发的方式一步一脚印,稳扎稳打把每一个环节做好,最终在运用有限的算力资源下,仍能达到接近世界顶尖AI大模型的效益。

鸿海研究院人工智慧研究所所长栗永徽表示:「近几个月,推理能力的深化以及GPU的高效运用逐渐成为AI领域发展主流。我们的FoxBrain模型採用高效训练策略,专注于训练过程优化而非盲目堆砌算力。通过精心设计的训练方法和资源优化,我们成功打造出具备强大推理能力的本土AI模型。」

开源共享,推动产业升级

FoxBrain模型虽然起源于鸿海研究院为集团内部应用而设计,未来,鸿海将持续与技术伙伴合作,对外开源分享,扩大FoxBrain模型运用範围,共同推动AI在制造业、供应链管理与智慧决策领域的应用。

鸿海未来将透过导入AI大型语言模型,优化智慧制造、智慧电动车、智慧城市等三大平台的数据分析效率,让FoxBrain成为驱动智慧应用升级的重要引擎,进一步提升公司营运效益。

在模型训练过程中,NVIDIA公司提供Taipei-1超级电脑的支持以及技术谘询,使鸿海研究院透过使用NeMo顺利完成模型训练。FoxBrain不仅是鸿海AI研发的重大突破,也为台湾AI产业发展树立了新的标竿。

FoxBrain的成功开发,不仅证明了台湾科技人才在AI领域的实力,也为台湾AI产业的发展注入了强劲动能。未来,随着FoxBrain的开源分享,可望在更多场景中发挥影响力,推动企业数智化转型与全球产业升级。