Claude 3在基准测试中击败GPT-4,是时候取消ChatGPT订阅了吗?

Claude 3在基准测试中击败GPT-4,是时候取消ChatGPT订阅了吗?

Anthropic的Claude 3刚刚发布,它的目标是与GPT-4等成熟的人工智能模型竞争。

如果你想了解更多关于人工智能模型的相关内容,可以阅读以下这些文章:
世界上最好的人工智能模型:谷歌DeepMind的Gemini已经超过了GPT-4!
在新研究的支持下,从ChatGPT获得深入响应的9种技巧
ChatGPT又蠢又没用?请提出正确的问题!
ChatGPT很累,可能正在计划度假(不是开玩笑)

Claude 3有三个版本。

  • Opus(付费版,每月20美元)
  • Sonnet (免费版,类似于GPT-3.5)
  • Haiku

Anthropic:https://www.anthropic.com/news/claude-3-family

根据上面的图片,很明显,我们可以根据自己的需要在性能和成本之间进行灵活的选择(虽然Haiku还没有上市)

当我们潜入基准测试时,很明显Claude3 Opus坚持自己的立场,甚至在竞争中脱颖而出(GPT-4和Gemini Ultra)

Anthropic:https://www.anthropic.com/news/claude-3-family

Claude 3 Opus在本科水平知识方面略高于GPT-4,得分为86.8%至86.4%。但这并不是Claude 3 Opus脱颖而出的唯一领域。在研究生水平推理(GPQA)和小学数学(GSM8K)等领域,Claude 3 Opus和其他人工智能模型之间的差异不仅是显而易见的,而且意义重大。

这表示Claude3有能力解决和可能完成GPT-4失败的任务,所以我们要把它放在测试中。我们将在创造力,逻辑,代码生成和视觉等领域测试Claude 3 Opus和GPT-4。

我们将给这两个模型一些练习,看看他们在推理方面有多好。

完成该系列:

2,4,8,16, __, 64

Claude 3 提供了正确且简洁的结果。它并不深入到所输出数值的细节中去,你从一开始就得到了一系列简单的回答。

我尝试了几次相同的提示,看是否能生成更详细的回答,但都得到了同样简洁的结果。

另一方面,GPT-4 得出了相同的解决方案。然而,它有一个额外的层次,真的让我更感兴趣 — 它会自动为我们解释到达结果所使用的步骤,即使我并没有要求。

Claude3总是对我提出的几乎所有推理问题作出简短的回答。

完成以下顺序:

B, d, f, h, j, __

在我做的大多数推理测试中,这两种模型都给出了不错的答案,所以我想说的是,这取决于你想要得到哪种类型的答案:是Claude 3 Opus的直接回答,还是GPT-4的循序渐进的解释。

我喜欢GPT-4的一点是它能够生成代码。现在,我很想知道Claude 3是否可以生成更少或没有错误的代码,特别是因为在这方面它被认为比GPT-4更强大。

让我们在下一个挑战中进行测试。

创建一个函数来绘制帕斯卡三角形(只使用边长)

长话短说,两个模型生成的代码都可以工作。这次Claude 3甚至解释了代码是如何工作的以及输出是什么样子的。

我为这个测试做了额外的工作,计算了两个脚本的执行时间。Claude 3 Opus的代码运行时间为5.5×10^-5秒,而GPT-4的代码运行时间较慢,为2.3×10^-4秒。这是一个小细节,可能会根据你要求两个模型生成的代码而改变。

让我们看看当我们把他们的视觉多模态进行测试时,这两个模型是如何堆叠的。在这个实验中,我们将使用一张显示特斯拉股票涨跌的图片。

你能观察到什么信息?你能从中得出什么结论?

Claude 3 Opus分析图像,找出了焦点公司,甚至准确地预测了价格变动。它提供了一个简洁的快照,尽管我希望能够得到更深入的信息。

GPT-4提供了与Claude 3相同的信息,但更详细和彻底。

总体来说,两个模型都擅长分析图像,所以如果你已经是GPT-4的用户,视觉方面并不是让你转向Claude 3的因素。

虽然这方面可能有点主观,但它为评估生成的响应提供了一个新的角度。

创作一个以机器人和律师为角色的原创故事。这个故事不应超过100字,必须设定在未来的背景下。

总体而言,两个模型都达到了预期,尽管如果考虑原创性作为一个关键因素,它们并没有完全让人惊艳。

双方的叙述几乎都追求同样的目标。

  • 总体而言,Claude 3 的表现相当不错。它生成的回答与 GPT-4 一样出色。
  • Claude 3 可以在回答的质量上进行改进。它的回答往往过于简短,有时在某些情况下有点过于笼统。
  • 作为订阅服务,GPT-4 在一些独家功能上略胜一筹,例如自定义指令、代码解释器、DALL-E 3 和其他 GPT 模型。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:The PyCoach
翻译作者:过儿
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/artificial-corner/claude-3-beats-gpt-4-in-benchmarks-is-that-enough-to-switch-cf5792e8479a