AI大神Andrej Karpathy 实测 GPT

GPT-3.5: 跨越了一个重要的门槛，终于达到了可以作为产品发布的水平，并由此引爆了 OpenAI 的「ChatGPT 时刻」！
GPT-4: 感觉确实更好，但 Karpathy 也坦言，提升是微妙的。他回忆起参与骇客松的经验，大家尝试寻找 GPT-4 明显优于 GPT-3.5 的具体 prompt，结果发现虽然差异存在，但很难找到那种「一锤定音」的例子。

GPT-4 的提升更像是一种「润物细无声」的感觉：

词语选择更具创造力
对 prompt 细微之处的理解有所提升
类比更加合理
模型变得更有趣
世界知识和对罕见领域的理解在边缘地带有所扩展
幻觉（胡说八道）的频率略有降低
整体感觉 (vibe) 更好

就像是「水涨船高」，所有方面都提升了大约 20%。

GPT-4.5：微妙的提升，依旧令人兴奋

带着对 GPT-4 这种「微妙提升」的预期，Karpathy 对 GPT-4.5 进行了测试（他提前几天获得了存取权限）。这次 GPT-4.5 的预训练算力比 GPT-4 又提升了 10 倍！

然而，Karpathy 发现，他彷彿又回到了两年前的骇客松：一切都变得更好，而且非常棒，但提升的方式仍然难以明确指出。

儘管如此，这仍然非常有趣和令人兴奋，因为它再次定性地衡量了仅仅通过预训练更大的模型就能「免费」获得的能力提升斜率。这说明，单纯地堆叠算力，依旧能带来肉眼可见的进步，只是进步的方式可能更加内敛和精细化。

注意！GPT-4.5 并非推理模型

Karpathy 特别强调，GPT-4.5 仅仅通过预训练、监督式微调和 RLHF（人类回馈强化学习）进行训练，因此它还不是一个真正的「推理模型」。

这意味着，在需要强大推理能力的任务（例如数学、程式码等）中，GPT-4.5 的能力提升可能并不显着。在这些领域，通过强化学习进行「思考」训练至关重要，即使是基于较旧的基础模型（例如 GPT-4 等级的能力）进行训练，效果也会更好。

目前，OpenAI 在这方面的最先进模型仍然是 full o1。据推测，OpenAI 接下来可能会在 GPT-4.5 模型

的模型基础上，进一步进行强化学习训练，使其具备「思考」能力，从而推动模型在推理领域的效能提升。

GPT-4.5 的优势领域：EQ 而非 IQ

虽然在推理方面提升有限，但 Karpathy 认为，在那些不依赖重度推理的任务中，我们仍然可以期待 GPT-4.5 的进步。他认为，这些任务更多与情商 (EQ) 相关，而非智商 (IQ)，并且瓶颈可能在于：

总体理解能力

因此，Karpathy 在测试 GPT-4.5 时，最关注的也是这些方面。

Karpathy 的「LM Arena Lite」趣味实验

为了更直观地展示 GPT-4 和 GPT-4.5 在这些「情商」相关任务上的差异，Karpathy 发起了一个有趣的「LM Arena Lite」实验。

他精心挑选了 5 个有趣/幽默的 prompt，用来测试模型在上述能力上的表现。他将 prompt 和 GPT-4、GPT-4.5 的回覆截图发布在 X 上，并穿插投票，让大家投票选出哪个回覆更好，类似下面这种问题和投票方式：

即日起，ChatGPT Pro 用户已经可以透过模型选择器体验 GPT-4.5 了！下週将面向 Team 和 Plus 用户开放，EDU 和 Enterprise 用户稍后也将陆续上线。

发表会的最后，OpenAI 强调了无监督学习和推理能力的重要性，并认为 GPT-4.5 是无监督学习领域的前沿成果。更强大的世界知识和更智慧的模型，将为未来的推理模型和 Agent 奠定更坚实的基础。

整场发表会的感觉GPT-4.5 亮点真的不多，从 Andrej Karpathy 的第一手评测来看也是如此，提升的主要是情商？这个只有等大家实际使用后才能亲身感受了。

AI大神Andrej Karpathy 实测 GPT

近期文章

分类

AI大神Andrej Karpathy 实测 GPT

相关文章

标签

近期文章

分类