Anthropic发布Claude 3，宣称拥有“接近人类”的能力，AI竞争白热化

周一，Anthropic发布了Claude 3，这是一组三款类似于驱动ChatGPT的AI语言模型。Anthropic声称这些模型在一系列认知任务上创造了新的行业标准，甚至在某些情况下接近了“接近人类”的能力水平。该模型现已在Anthropic的网站上推出，其中最强大的模型仅限订阅。同时，开发者也可以通过API获得这些模型。

Claude 3的三个模型代表了逐渐增加的复杂性和参数数量：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。Sonnet目前免费提供给用户，并且可以通过电子邮件注册进行访问。但正如上文所提到的，Opus只能通过Anthropic网站上的Web聊天界面使用，需要支付每月20美元的“Claude Pro”订阅费用。这三款模型都具有20万个标记上下文窗口。（上下文窗口是AI语言模型一次处理的标记数量——词的片段。）

我们曾在2023年3月报道过Claude的发布，以及在同年7月报道过Claude 2的发布。每一次，Anthropic在能力上略微落后于OpenAI的最佳模型，但在上下文窗口长度方面超越了它们。随着Claude 3的发布，Anthropic或许终于在性能方面赶上了OpenAI发布的模型，尽管专家之间尚无共识——而且AI基准的展示往往容易受到精心挑选的影响。

据报道，Claude 3在各种认知任务中表现出色，包括推理、专业知识、数学和语言流畅性。公司声称，其中最强大的模型Opus在复杂任务上表现出“接近人类水平的理解能力和流畅度”。

与前辈相比，Claude 3模型在分析、预测、内容创作、代码生成和多语言对话等方面都有所改进。据称，这些模型还具有增强的视觉能力，可以处理照片、图表和图表等视觉格式，类似于ChatGPT的订阅版本GPT-4V和谷歌的Gemini。

Anthropic强调，与前几代和竞争对手的模型相比，这三个模型的速度和成本效益更高。Opus（最大的模型）每百万个输入标记收费15美元，每百万个输出标记收费75美元；Sonnet（中等模型）每百万个输入标记收费3美元，每百万个输出标记收费15美元；而Haiku（最小、最快的模型）每百万个输入标记收费0.25美元，每百万个输出标记收费1.25美元。相比之下，OpenAI的通过API提供的GPT-4 Turbo每百万个输入标记收费10美元，每百万个输出标记收费30美元；GPT-3.5 Turbo每百万个输入标记收费0.50美元，每百万个输出标记收费1.50美元。

Anthropic计划在未来几个月频繁更新Claude 3模型系列，同时增加新功能，如工具使用、交互式编码和“高级代理能力”。该公司表示，他们致力于确保安全措施与AI性能的进步同步，并且Claude 3模型“目前几乎没有潜在的灾难性风险”。

Opus和Sonnet模型现已通过Anthropic的API提供，Haiku模型将很快推出。Sonnet还可以通过亚马逊Bedrock以及Google Cloud的Vertex AI Model Garden的私有预览进行访问。

关于LLM基准的一些话我们注册了Claude Pro，用一些非正式的测试来尝试Opus。Opus在能力上与ChatGPT-4相似。它不能写出原创的幽默笑话（所有的都似乎都是从网络上获取的），在总结信息和以各种风格撰写文本方面表现出色，在逻辑分析单词问题方面表现良好，在涉及更为晦涩的主题时，出现的虚构内容似乎相对较少。

这些都不是绝对的通过或失败，而在一个通常以硬数字和可量化基准输出的计算机产品世界中，这可能会让人感到沮丧。正如Willison告诉我们的那样，“‘氛围’是现代人工智能的一个关键概念”。

AI基准很棘手，因为任何AI助手的效果都会因所使用的提示和基础AI模型的调整而高度变化。AI模型可以在“测试中”表现良好（就这么说吧），但在将这些能力推广到新颖情况下可能会失败。

此外，AI助手的效果高度主观（因此Willison的“氛围”）。这是因为让AI模型成功完成你想做的事情在量化方面（比如说，以基准度量）是困难的，因为你给它的任务可能是地球上任何领域的任何任务。一些模型对一些任务有效，对另一些任务无效，这可以根据任务和提示风格以及人与人之间的差异而变化。

所有这些都适用于Google、OpenAI和Meta等供应商的每个大型语言模型——不仅仅是Claude 3。随着时间的推移，人们发现每个模型都有自己的特点，每个模型的优缺点可以通过某些提示技术来接受或解决。眼下，看起来主要的AI助手正在逐渐形成一套非常相似的能力。

因此，Anthropic声称Claude 3可以胜过当前普遍被视为市场领先的GPT-4 Turbo，这需要谨慎对待——或者说需要一种“氛围”的观点。如果您正在考虑不同的模型，那么个人测试每个模型以查看其是否符合您的应用程序至关重要，因为可能没有其他人能够复制您使用它的确切环境。

文章来源于互联网:Anthropic发布Claude 3，宣称拥有“接近人类”的能力，AI竞争白热化