0°

Anthropic推出Claude 3.5,力压GPT-4o和Gemini 1.5 Pro

  大模型领域再次迎来新突破。

  当地时间6月20日,OpenAI的“劲敌”Anthropic公司发布了最新模型Claude 3.5 Sonnet。

  据Anthropic介绍,该模型是Claude 3.5系列模型中的首个版本,也是Anthropic迄今为止发布的“最强大、最智能”的模型。它不仅在性能上超越了竞争对手和自家此前最先进的Claude 3 Opus模型,还主打高性价比。

  Anthropic 联合创始人丹妮拉·阿莫迪(Daniela Amodei )在接受采访时表示:“Claude 3.5 Sonnet 是目前市场上功能最强大、最智能、最便宜的模型。在标准的七项智能和能力指标中,它在其中六项上击败了所有竞争对手,在第七项上也非常接近(第一名)。”

  目前,所有用户都可以在Claude.ai网页端和Claude iOS应用上免费使用Claude 3.5 Sonnet,而付费和企业用户可以获得更高的速率(更少的限制)。

  此外,用户也可以通过Anthropic API、亚马逊Bedrock和谷歌云Vertex AI等服务调用该模型。

  图 | Claude 模型系列的性能VS成本对比图(来源:Anthropic)

  成本方面,该模型的每百万输入token收费3美元,每百万输出token收费15美元,上下文窗口为20万token。

  Anthropic 的特点是专注于企业市场,这使其有别于 OpenAI 等竞争对手,后者的GPT 模型主要面向消费者。

  虽然 OpenAI 在突破大模型能力界限方面取得了重大进展,但 Anthropic 通过根据企业的特定需求定制其产品,开辟了一个利基市场。

  这种战略差异在 Claude 3.5 Sonnet 的功能和定价中显而易见,它优先考虑了对企业客户最重要的关键因素:花销与Claude 3 Sonnet完全一致,但模型性能却有大幅提升。

  在安全评估方面,尽管 Claude 3.5 Sonnet 的智能水平大幅提升,但它的人工智能安全水平(ASL)仍处于ASL-2水平,与现有主流大模型相同。

  Anthropic在博客中介绍,Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval)设定了新的行业基准。

  它在掌握细微差别、幽默和复杂指令方面表现出显著的进步,并且擅长以自然、亲切的语气撰写高质量的内容。

  Claude 3.5 Sonnet的运行速度是前代旗舰模型Claude 3 Opus的两倍,这对于需要快速响应的应用场景(如客户服务聊天机器人)来说尤为重要。

  在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,击败了只解决了38%的问题的Claude 3 Opus。

  这项评估测试了模型修复错误或向开源代码库添加功能的能力,人类测试员给出了所需改进的自然语言描述。

  在得到提示和相关工具后,Claude 3.5 Sonnet 可以独立编写、修改和执行代码,并具有强大的推理和故障排除功能。

  图 | Claude 3.5 Sonnet在多项测试中斩获第一,超越了GPT-4o和Gemini 1.5 Pro 等对手(来源:Anthropic)

  在视觉分析方面,Claude 3.5 Sonnet也有了质的飞跃。

  Antropic表示,Claude 3.5 Sonnet 是其迄今为止最强大的视觉模型,在标准视觉基准上超越了 Claude 3 Opus。

  据介绍,它能够更准确地解读图表和图形,并且可以从“不完美”的图像中转录文本,如存在失真和视觉伪影的图片。这些能力的提升使Claude 3.5 Sonnet在处理复杂的视觉任务时更加得心应手,也可以获得比纯文本更多的信息和见解。

  “对于标准视觉指标,我们在五项指标中的四项上名列前茅,剩下的一项也相差不多。”阿莫迪告诉媒体。

  图 | Claude 3.5 Sonnet在多项视觉测试中超越了GPT-4o和Gemini 1.5 Pro 等对手(来源:Anthropic)

  除了新模型,Anthropic 还推出了一项名为 Artifacts 的新功能。

  借助 Artifacts,用户能够查看并与 Claude 模型给出的结果进行交互。如果你要求模型为你设计某个东西,它现在可以向你展示它的外观并让你直接在应用程序中进行编辑。

  图 | Artifacts功能演示(来源:Anthropic)

  如果 Claude 帮你写了一封电子邮件,你可以在 Claude 应用中直接编辑该邮件,而不必将其复制到文本编辑工具中。

  这是一个很小的功能,但却很实用。这些人工智能工具的意义不仅仅是简单的聊天机器人,像 Artifacts 这样的功能可以让应用程序有更多协作功能,带来更便捷的用户体验。

  “这项新功能标志着 Claude 从对话式人工智能进化为协作式工作环境。这只是 Claude.ai 更广阔愿景的开始,该愿景很快将进一步支持更大规模的团队协作。”Anthropic写道。

  Anthropic表示,其目标是每隔几个月就大幅改善智能、速度和成本之间的权衡曲线。为了补全 Claude 3.5 模型系列,它将在今年晚些时候发布 Claude 3.5 Haiku(低端型号)和 Claude 3.5 Opus(高端型号)。

  除了开发下一代模型系列外,该公司还在开发新模式和功能,以支持更多企业用例,包括与企业应用程序集成。

  其团队还在探索诸如 Memory 之类的功能,该功能将使 Claude 模型记住用户的偏好和指定的交互历史记录,从而使用户体验更加个性化和高效。

  最后,Anthropic强调,指导其人工智能模型开发的核心原则之一是隐私。

  除非用户明确允许,否则Anthropic不会使用用户提交的数据来训练其生成式模型。到目前为止,它还没有使用任何客户或用户提交的数据来训练模型。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论