GPT-3.5: 跨越了一个重要的门槛,终于达到了可以作为产品发布的水平,并由此引爆了 OpenAI 的「ChatGPT 时刻」!
GPT-4: 感觉确实更好,但 Karpathy 也坦言,提升是 微妙的。他回忆起参与骇客松的经验,大家尝试寻找 GPT-4 明显优于 GPT-3.5 的具体 prompt,结果发现虽然差异存在,但很难找到那种「一锤定音」的例子。
GPT-4 的提升更像是一种「润物细无声」的感觉:
词语选择更具创造力
对 prompt 细微之处的理解有所提升
类比更加合理
模型变得更有趣
世界知识和对罕见领域的理解在边缘地带有所扩展
幻觉(胡说八道)的频率略有降低
整体感觉 (vibe) 更好
就像是「水涨船高」,所有方面都提升了大约 20%。
GPT-4.5:微妙的提升,依旧令人兴奋
带着对 GPT-4 这种「微妙提升」的预期,Karpathy 对 GPT-4.5 进行了测试(他提前几天获得了存取权限)。这次 GPT-4.5 的预训练算力比 GPT-4 又提升了 10 倍!
然而,Karpathy 发现,他彷彿又回到了两年前的骇客松:一切都变得更好,而且非常棒,但提升的方式仍然难以明确指出。
儘管如此,这仍然非常有趣和令人兴奋,因为它再次 定性地衡量了仅仅通过预训练更大的模型就能「免费」获得的能力提升斜率。这说明,单纯地堆叠算力,依旧能带来肉眼可见的进步,只是进步的方式可能更加内敛和精细化。
注意!GPT-4.5 并非推理模型
Karpathy 特别强调,GPT-4.5 仅仅通过预训练、监督式微调和 RLHF(人类回馈强化学习)进行训练,因此它还不是一个真正的「推理模型」。
这意味着,在需要强大推理能力的任务(例如数学、程式码等)中,GPT-4.5 的能力提升可能并不显着。在这些领域,通过强化学习进行「思考」训练至关重要,即使是基于较旧的基础模型(例如 GPT-4 等级的能力)进行训练,效果也会更好。
目前,OpenAI 在这方面的最先进模型仍然是 full o1。 据推测,OpenAI 接下来可能会在 GPT-4.5 模型
的模型基础上,进一步进行强化学习训练,使其具备「思考」能力,从而推动模型在推理领域的效能提升。
GPT-4.5 的优势领域:EQ 而非 IQ
虽然在推理方面提升有限,但 Karpathy 认为,在那些不依赖重度推理的任务中,我们仍然可以期待 GPT-4.5 的进步。 他认为,这些任务更多与 情商 (EQ) 相关,而非智商 (IQ),并且瓶颈可能在于:
总体理解能力
因此,Karpathy 在测试 GPT-4.5 时,最关注的也是这些方面。
Karpathy 的「LM Arena Lite」趣味实验
为了更直观地展示 GPT-4 和 GPT-4.5 在这些「情商」相关任务上的差异,Karpathy 发起了一个有趣的 「LM Arena Lite」实验。
他精心挑选了 5 个有趣/幽默的 prompt,用来测试模型在上述能力上的表现。 他将 prompt 和 GPT-4、GPT-4.5 的回覆截图发布在 X 上,并穿插投票,让大家投票选出哪个回覆更好,类似下面这种问题和投票方式:
即日起,ChatGPT Pro 用户 已经可以透过模型选择器体验 GPT-4.5 了! 下週将面向 Team 和 Plus 用户 开放,EDU 和 Enterprise 用户 稍后也将陆续上线。
发表会的最后,OpenAI 强调了 无监督学习 和 推理能力 的重要性,并认为 GPT-4.5 是无监督学习领域的前沿成果。 更强大的世界知识和更智慧的模型,将为未来的 推理模型和 Agent 奠定更坚实的基础。
整场发表会的感觉GPT-4.5 亮点真的不多,从 Andrej Karpathy 的第一手评测来看也是如此,提升的主要是情商?这个只有等大家实际使用后才能亲身感受了。