Anthropic推出Claude 3.5，力压GPT-4o和Gemini 1.5 Pro

　　大模型领域再次迎来新突破。

　　当地时间6月20日，OpenAI的“劲敌”Anthropic公司发布了最新模型Claude 3.5 Sonnet。

　　据Anthropic介绍，该模型是Claude 3.5系列模型中的首个版本，也是Anthropic迄今为止发布的“最强大、最智能”的模型。它不仅在性能上超越了竞争对手和自家此前最先进的Claude 3 Opus模型，还主打高性价比。

　　Anthropic 联合创始人丹妮拉·阿莫迪(Daniela Amodei )在接受采访时表示：“Claude 3.5 Sonnet 是目前市场上功能最强大、最智能、最便宜的模型。在标准的七项智能和能力指标中，它在其中六项上击败了所有竞争对手，在第七项上也非常接近(第一名)。”

　　目前，所有用户都可以在Claude.ai网页端和Claude iOS应用上免费使用Claude 3.5 Sonnet，而付费和企业用户可以获得更高的速率(更少的限制)。

　　此外，用户也可以通过Anthropic API、亚马逊Bedrock和谷歌云Vertex AI等服务调用该模型。

　　图 | Claude 模型系列的性能VS成本对比图(来源：Anthropic)

　　成本方面，该模型的每百万输入token收费3美元，每百万输出token收费15美元，上下文窗口为20万token。

　　Anthropic 的特点是专注于企业市场，这使其有别于 OpenAI 等竞争对手，后者的GPT 模型主要面向消费者。

　　虽然 OpenAI 在突破大模型能力界限方面取得了重大进展，但 Anthropic 通过根据企业的特定需求定制其产品，开辟了一个利基市场。

　　这种战略差异在 Claude 3.5 Sonnet 的功能和定价中显而易见，它优先考虑了对企业客户最重要的关键因素：花销与Claude 3 Sonnet完全一致，但模型性能却有大幅提升。

　　在安全评估方面，尽管 Claude 3.5 Sonnet 的智能水平大幅提升，但它的人工智能安全水平(ASL)仍处于ASL-2水平，与现有主流大模型相同。

　　Anthropic在博客中介绍，Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval)设定了新的行业基准。

　　它在掌握细微差别、幽默和复杂指令方面表现出显著的进步，并且擅长以自然、亲切的语气撰写高质量的内容。

　　Claude 3.5 Sonnet的运行速度是前代旗舰模型Claude 3 Opus的两倍，这对于需要快速响应的应用场景(如客户服务聊天机器人)来说尤为重要。

　　在内部代理编码评估中，Claude 3.5 Sonnet 解决了 64% 的问题，击败了只解决了38%的问题的Claude 3 Opus。

　　这项评估测试了模型修复错误或向开源代码库添加功能的能力，人类测试员给出了所需改进的自然语言描述。

　　在得到提示和相关工具后，Claude 3.5 Sonnet 可以独立编写、修改和执行代码，并具有强大的推理和故障排除功能。

　　图 | Claude 3.5 Sonnet在多项测试中斩获第一，超越了GPT-4o和Gemini 1.5 Pro 等对手(来源：Anthropic)

　　在视觉分析方面，Claude 3.5 Sonnet也有了质的飞跃。

　　Antropic表示，Claude 3.5 Sonnet 是其迄今为止最强大的视觉模型，在标准视觉基准上超越了 Claude 3 Opus。

　　据介绍，它能够更准确地解读图表和图形，并且可以从“不完美”的图像中转录文本，如存在失真和视觉伪影的图片。这些能力的提升使Claude 3.5 Sonnet在处理复杂的视觉任务时更加得心应手，也可以获得比纯文本更多的信息和见解。

　　“对于标准视觉指标，我们在五项指标中的四项上名列前茅，剩下的一项也相差不多。”阿莫迪告诉媒体。

　　图 | Claude 3.5 Sonnet在多项视觉测试中超越了GPT-4o和Gemini 1.5 Pro 等对手(来源：Anthropic)

　　除了新模型，Anthropic 还推出了一项名为 Artifacts 的新功能。

　　借助 Artifacts，用户能够查看并与 Claude 模型给出的结果进行交互。如果你要求模型为你设计某个东西，它现在可以向你展示它的外观并让你直接在应用程序中进行编辑。

　　图 | Artifacts功能演示(来源：Anthropic)

　　如果 Claude 帮你写了一封电子邮件，你可以在 Claude 应用中直接编辑该邮件，而不必将其复制到文本编辑工具中。

　　这是一个很小的功能，但却很实用。这些人工智能工具的意义不仅仅是简单的聊天机器人，像 Artifacts 这样的功能可以让应用程序有更多协作功能，带来更便捷的用户体验。

　　“这项新功能标志着 Claude 从对话式人工智能进化为协作式工作环境。这只是 Claude.ai 更广阔愿景的开始，该愿景很快将进一步支持更大规模的团队协作。”Anthropic写道。

　　Anthropic表示，其目标是每隔几个月就大幅改善智能、速度和成本之间的权衡曲线。为了补全 Claude 3.5 模型系列，它将在今年晚些时候发布 Claude 3.5 Haiku(低端型号)和 Claude 3.5 Opus(高端型号)。

　　除了开发下一代模型系列外，该公司还在开发新模式和功能，以支持更多企业用例，包括与企业应用程序集成。

　　其团队还在探索诸如 Memory 之类的功能，该功能将使 Claude 模型记住用户的偏好和指定的交互历史记录，从而使用户体验更加个性化和高效。

　　最后，Anthropic强调，指导其人工智能模型开发的核心原则之一是隐私。

　　除非用户明确允许，否则Anthropic不会使用用户提交的数据来训练其生成式模型。到目前为止，它还没有使用任何客户或用户提交的数据来训练模型。