大型作品和十四行诗现已可在claude.ai和Claude API中使用,Claude API现在在159个国家/地区普遍可用。俳句很快就会推出。
负责任的设计
我们开发克劳德3系列模型的目的是使其既可靠又功能强大。我们有几个专门的团队追踪和减轻从虚假信息和CSAM到生物滥用、选举干扰和自主复制技能等各种风险,范围涉及广泛。我们继续开发诸如宪法AI之类的方法,以提高模型的安全性和透明度,并调整我们的模型以减轻由新的模态可能引发的隐私问题。
解决日益复杂的模型中的偏见是一项持续的工作,我们在这一新版本中取得了进展。正如模型卡中所示,根据问答偏见基准(BBQ),克劳德3显示出比我们先前的模型更少的偏见。我们致力于推进减少偏见的技术,并促进模型更加中立,确保它们不偏向任何特定的党派立场。
尽管与先前的模型相比,克劳德3模型系列在生物知识、网络相关知识和自治方面取得了重大进展,但根据我们的负责任扩展政策,它仍处于AI安全级别2(ASL-2)。我们的红队评估(符合我们在白宫的承诺和2023年美国行政命令的要求)得出的结论是,这些模型目前几乎没有潜在的灾难性风险。我们将继续密切监测未来的模型,以评估它们与ASL-3门槛的接近程度。有关Claude 3模型的进一步安全详细信息,请参见模型卡。
更易于使用
克劳德3模型更擅长遵循复杂的、多步骤的说明。它们特别擅长遵循品牌声音和响应指南,并开发用户可以信赖的面向客户的体验。此外,克劳德3模型更擅长以JSON等格式生成流行的结构化输出,使得指导Claude用于自然语言分类和情感分析等用例变得更简单。
模型详细信息
克劳德3 Opus是我们最智能的模型,对高度复杂任务的性能最佳。它能够在不确定的提示和未见过的情景中以出色的流畅度和类人的理解力导航。Opus向我们展示了生成AI可能性的极限。
智能的新标准
作为我们最智能的模型,Opus在大多数常见的AI系统评估基准上表现优异,包括本科级别的专家知识(MMLU)、研究生级别的专家推理(GPQA)、基本数学(GSM8K)等。它在复
杂任务上表现出接近人类水平的理解力和流畅度,引领着智能的前沿。
所有克劳德3模型在分析和预测、细致的内容创建、代码生成和使用西班牙语、日语和法语等非英语语言进行对话方面都表现出增强的能力。
以下是克劳德3模型与我们同行在多个能力基准上的比较:
近乎即时的结果
克劳德3模型可以支持实时客户聊天、自动完成和数据提取任务,在这些任务中,响应必须是即时的和实时的。
Haiku是市场上最快速、性价比最高的智能类别模型。它可以在不到三秒的时间内阅读一篇信息密集、数据密集的arXiv研究论文(~10k tokens),其中包括图表和图形。随着发布,我们预计将进一步提高性能。
对于绝大多数工作负载而言,Sonnet比Claude 2和Claude 2.1快两倍,同时具有更高级别的智能。它擅长于需要快速响应的任务,如知识检索或销售自动化。Opus的速度与Claude 2和2.1相似,但智能水平更高。
强大的视觉能力
克劳德3模型具有与其他领先模型相当的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴为我们的企业客户提供这种新的模态,其中一些客户的知识库中有多达50%的知识以各种格式编码,如PDF、流程图或演示文稿。
拒绝更少
以前的Claude模型经常做出不必要的拒绝,表明缺乏上下文理解。在这一领域,我们取得了实质性的进展:Opus、Sonnet和Haiku拒绝回答那些接近系统警戒线的提示的可能性明显降低,比以前的模型更少。如下所示,克劳德3模型更加细致地理解请求,认识到真实的伤害,并拒绝回答无害提示的频率也更低。
提高的准确性
各种规模的企业都依赖于我们的模型为其客户提供服务,因此,我们的模型输出在规模上保持高准确性至关重要。为了评估这一点,我们使用一套大量的复杂事实问题,针对当前模型中已知的弱点。我们将响应分类为正确答案、错误答案(或幻觉)和不确定性承认,其中模型表示不知道答案而不是提供错误信息。与Claude 2.1相比,Opus在这些具有挑战性的开放性问题上的准确性(或正确答案)提高了一倍,同时也表现出了更低水平的错误答案。
除了产生更可信赖的响应外,我们将很快在我们的克劳德3模型中启用引用,以便它们可以指向参考资料中的精确句子来验证它们的答案。
长上下文和近乎完美的回忆
克劳德3系列模型在推出时将提供一个200K上下文窗口。然而,这三个模型都能够接受超过100万个token的输入,我们可能会向需要增强处理能力的选择客户提供这个功能。
为了有效处理长上下文提示,模型需要强大的回忆能力。“草堆中的针”(NIAH)评估衡量了模型从广泛的数据语料库中准确回忆信息的能力。我们通过在每个提示中使用30个随机针/问题对之一,并在一个多样化的众包语料库文档上进行测试,增强了这个基准的鲁棒性。克劳德3 Opus不仅达到了近乎完美的回忆,超过了99%的准确率,而且在某些情况下,它甚至认识到了评估本身的局限性,意识到“针”句子似乎是由人工插入到原始文本中的。