Claude 3在基准测试中击败GPT-4，是时候取消ChatGPT订阅了吗？

Anthropic的Claude 3刚刚发布，它的目标是与GPT-4等成熟的人工智能模型竞争。

Claude 3有三个版本。

Opus(付费版，每月20美元)
Sonnet (免费版，类似于GPT-3.5)
Haiku

Anthropic：https://www.anthropic.com/news/claude-3-family

根据上面的图片，很明显，我们可以根据自己的需要在性能和成本之间进行灵活的选择(虽然Haiku还没有上市)。

当我们潜入基准测试时，很明显Claude3 Opus坚持自己的立场，甚至在竞争中脱颖而出(GPT-4和Gemini Ultra)。

Anthropic：https://www.anthropic.com/news/claude-3-family

Claude 3 Opus在本科水平知识方面略高于GPT-4，得分为86.8%至86.4%。但这并不是Claude 3 Opus脱颖而出的唯一领域。在研究生水平推理(GPQA)和小学数学(GSM8K)等领域，Claude 3 Opus和其他人工智能模型之间的差异不仅是显而易见的，而且意义重大。

这表示Claude3有能力解决和可能完成GPT-4失败的任务，所以我们要把它放在测试中。我们将在创造力，逻辑，代码生成和视觉等领域测试Claude 3 Opus和GPT-4。

推理

我们将给这两个模型一些练习，看看他们在推理方面有多好。

完成该系列:

2,4,8,16， __， 64

Claude 3 提供了正确且简洁的结果。它并不深入到所输出数值的细节中去，你从一开始就得到了一系列简单的回答。

我尝试了几次相同的提示，看是否能生成更详细的回答，但都得到了同样简洁的结果。

另一方面，GPT-4 得出了相同的解决方案。然而，它有一个额外的层次，真的让我更感兴趣 — 它会自动为我们解释到达结果所使用的步骤，即使我并没有要求。

Claude3总是对我提出的几乎所有推理问题作出简短的回答。

完成以下顺序:

B, d, f, h, j， __

在我做的大多数推理测试中，这两种模型都给出了不错的答案，所以我想说的是，这取决于你想要得到哪种类型的答案：是Claude 3 Opus的直接回答，还是GPT-4的循序渐进的解释。

代码生成

我喜欢GPT-4的一点是它能够生成代码。现在，我很想知道Claude 3是否可以生成更少或没有错误的代码，特别是因为在这方面它被认为比GPT-4更强大。

让我们在下一个挑战中进行测试。

创建一个函数来绘制帕斯卡三角形(只使用边长)

长话短说，两个模型生成的代码都可以工作。这次Claude 3甚至解释了代码是如何工作的以及输出是什么样子的。

我为这个测试做了额外的工作，计算了两个脚本的执行时间。Claude 3 Opus的代码运行时间为5.5×10^-5秒，而GPT-4的代码运行时间较慢，为2.3×10^-4秒。这是一个小细节，可能会根据你要求两个模型生成的代码而改变。

愿景

让我们看看当我们把他们的视觉多模态进行测试时，这两个模型是如何堆叠的。在这个实验中，我们将使用一张显示特斯拉股票涨跌的图片。

你能观察到什么信息？你能从中得出什么结论？

Claude 3 Opus分析图像，找出了焦点公司，甚至准确地预测了价格变动。它提供了一个简洁的快照，尽管我希望能够得到更深入的信息。

GPT-4提供了与Claude 3相同的信息，但更详细和彻底。

总体来说，两个模型都擅长分析图像，所以如果你已经是GPT-4的用户，视觉方面并不是让你转向Claude 3的因素。

创造力

虽然这方面可能有点主观，但它为评估生成的响应提供了一个新的角度。

创作一个以机器人和律师为角色的原创故事。这个故事不应超过100字，必须设定在未来的背景下。

总体而言，两个模型都达到了预期，尽管如果考虑原创性作为一个关键因素，它们并没有完全让人惊艳。

双方的叙述几乎都追求同样的目标。

总结

总体而言，Claude 3 的表现相当不错。它生成的回答与 GPT-4 一样出色。
Claude 3 可以在回答的质量上进行改进。它的回答往往过于简短，有时在某些情况下有点过于笼统。
作为订阅服务，GPT-4 在一些独家功能上略胜一筹，例如自定义指令、代码解释器、DALL-E 3 和其他 GPT 模型。

感谢阅读！你还可以订阅我们的YouTube频道，观看大量大数据行业相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/。

原文作者：The PyCoach
翻译作者：过儿
美工编辑：过儿
校对审稿：Jason
原文链接：https://medium.com/artificial-corner/claude-3-beats-gpt-4-in-benchmarks-is-that-enough-to-switch-cf5792e8479a

May 13, 2024 | Blog | Tags: AI, ChatGPT

Claude 3在基准测试中击败GPT-4，是时候取消ChatGPT订阅了吗？

Claude 3在基准测试中击败GPT-4，是时候取消ChatGPT订阅了吗？

人工智能正在触及无法逾越的天花板

这份人工智能通讯包含了你需要的最热消息！

Latest post

多智能体协作协议（MCP）：LLM 系统中合作智能的未来

LLAMA 4 来袭：Meta 全新大模型的技术突破与商业潜力

一文带你了解 Google 的数据科学Agent

Courses

Events

Consulting

ABOUT US

Contact Info: