Anthropic 公司最新发布了其大型语言模型 Claude 的第三代版本(简称 Claude 3)。根据其公开的 Benchmark 测试结果,Claude 3 在多个领域的表现均超越了谷歌的 Gemini 1.0 Ultra 和 OpenAI 的 GPT-4,尤其是在编程方面的零示例提示能力更是领先许多。

Claude 3 共有三个不同的模型等级:

  • Haiku – 基础版
  • Sonet – 免费公开版(性能中等)
  • Opus – 付费高级版(智能最强)

其中 Opus 需要付费订阅($20/月)才能使用。所有三个版本都具备出色的视觉分析能力。

Claude 3 多项能力超越 GPT-4

根据 Anthropic 公开的 Benchmark 测试数据,Claude 3 的 Opus 版在多项测试中均表现优异:

1. 编程能力

在编程的零示例提示能力测试中,Claude 3 的准确率高达 85%,而 GPT-4 仅为 67%,提升幅度惊人。

2. 视觉分析能力

在多个视觉分析任务中,GPT-4 在所有细分领域都输给了 Claude 3 和谷歌的 Gemini 模型。

3. 上下文记忆能力

Claude 3 能够处理高达 200,000 个 token 的上下文窗口,远超现有模型。未来还将提高到 100 万 token,真正实现”长文本记忆”。

4. 更自然的对话

与 Claude 之前版本相比,Claude 3 在拒绝回答比例大幅降低,降至 10% 以下,有望提供更自然流畅的对话体验。

Claude 3 Opus 与 GPT-4 实战对比

1. 视觉分析

在对一个时尚投影仪产品图片的分析中,Claude 3 准确归纳出这是”一款短焦投影仪,提供身临其境的视觉体验”。而 GPT-4 虽然识别出这是投影仪,但描述仍较一般。

2. 文本生成

我让两个模型基于一段视频内容生成产品宣传新闻稿,Claude 3 生成的文本风格自然流畅、层次分明,用词规范;而 GPT-4 经常使用一些夸张的营销用语。

3. 从图片生成代码

让模型从一张包含计算器界面的网页截图中生成相应的 HTML/CSS/JS 代码,GPT-4 的结果很一般;而 Claude 3 能够还原并加入实际可运行的JavaScript代码,使计算器界面可交互操作,体验相当不错。

4. 数学公式识别

在一张包含二次方程式图片的测试中,GPT-4 能够准确地指出这是二次方程式;但 Claude 3 却没有给出正确回复。

5. 游戏编程

我让两个模型为我编写一个 Python 版的经典游戏”贪吃蛇”,Claude 3 给出了完整可运行的代码,且操作步骤一步一步,体验最棒;GPT-4 也能完成,但代码较为冗长。

三款模型定位及细节对比

1. Claude 3 Opus

Opus 是 Claude 家族中智能水准最高的旗舰款。在高度开放的复杂场景中,它展现出了媲美人类的理解和流畅应对能力,开启了大语言模型新的发展可能。

  • 智能水平:行业顶尖
  • 定价(输入/输出):$15/百万 token | $75/百万token
  • 上下文窗口: 20万 token(特殊使用场景可达100万token)
  • 潜在应用: 任务自动化,研发创新,战略分析与预测等
  • 独特卖点: 智能超越任何现有模型

2. Claude 3 Sonnet

Sonnet 在智能与速度之间取得了极佳平衡,特别适合企业级部署。相比其他同级模型,它提供了更优秀的性能和更低的成本,并被专门调试以适应大规模人工智能部署。

  • 定价(输入/输出): $3/百万token | $15/百万token
  • 上下文窗口: 20万token
  • 潜在应用: 大规模数据处理,智能营销与销售,节省人力成本等
  • 独特卖点: 同级市场最高性价比,大规模部署优势

3. Claude 3 Haiku

作为系列中最快最紧凑的模型, Haiku 擅长实时快速响应简单查询请求,能为用户带来媲美人类交互的无缝体验。

  • 定价(输入/输出): $0.25/百万token | $1.25/百万token
  • 上下文窗口: 20万token
  • 潜在应用: 智能客户服务,内容审核,降低人力成本等
  • 独特卖点: 性价比超高,响应迅速
相关阅读  在本地部署大语言模型 - 你需要知道的一切

Categorized in: