Anthropic发布Claude 3,宣称拥有“接近人类”的能力,AI竞争白热化

周一,Anthropic发布了Claude 3,这是一组三款类似于驱动ChatGPTAI语言模型。Anthropic声称这些模型在一系列认知任务上创造了新的行业标准,甚至在某些情况下接近了“接近人类”的能力水平。该模型现已在Anthropic的网站上推出,其中最强大的模型仅限订阅。同时,开发者也可以通过API获得这些模型。


Anthropic发布Claude 3,宣称拥有“接近人类”的能力,AI竞争白热化

Claude 3的三个模型代表了逐渐增加的复杂性和参数数量:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。Sonnet目前免费提供给用户,并且可以通过电子邮件注册进行访问。但正如上文所提到的,Opus只能通过Anthropic网站上的Web聊天界面使用,需要支付每月20美元的“Claude Pro”订阅费用。这三款模型都具有20万个标记上下文窗口。(上下文窗口是AI语言模型一次处理的标记数量——词的片段。)

我们曾在2023年3月报道过Claude的发布,以及在同年7月报道过Claude 2的发布。每一次,Anthropic在能力上略微落后于OpenAI的最佳模型,但在上下文窗口长度方面超越了它们。随着Claude 3的发布,Anthropic或许终于在性能方面赶上了OpenAI发布的模型,尽管专家之间尚无共识——而且AI基准的展示往往容易受到精心挑选的影响。


Anthropic发布Claude 3,宣称拥有“接近人类”的能力,AI竞争白热化

据报道,Claude 3在各种认知任务中表现出色,包括推理、专业知识、数学和语言流畅性。公司声称,其中最强大的模型Opus在复杂任务上表现出“接近人类水平的理解能力和流畅度”。

与前辈相比,Claude 3模型在分析、预测、内容创作、代码生成和多语言对话等方面都有所改进。据称,这些模型还具有增强的视觉能力,可以处理照片、图表和图表等视觉格式,类似于ChatGPT的订阅版本GPT-4V和谷歌的Gemini。

Anthropic强调,与前几代和竞争对手的模型相比,这三个模型的速度和成本效益更高。Opus(最大的模型)每百万个输入标记收费15美元,每百万个输出标记收费75美元;Sonnet(中等模型)每百万个输入标记收费3美元,每百万个输出标记收费15美元;而Haiku(最小、最快的模型)每百万个输入标记收费0.25美元,每百万个输出标记收费1.25美元。相比之下,OpenAI的通过API提供的GPT-4 Turbo每百万个输入标记收费10美元,每百万个输出标记收费30美元;GPT-3.5 Turbo每百万个输入标记收费0.50美元,每百万个输出标记收费1.50美元。


Anthropic发布Claude 3,宣称拥有“接近人类”的能力,AI竞争白热化

Anthropic计划在未来几个月频繁更新Claude 3模型系列,同时增加新功能,如工具使用、交互式编码和“高级代理能力”。该公司表示,他们致力于确保安全措施与AI性能的进步同步,并且Claude 3模型“目前几乎没有潜在的灾难性风险”。

Opus和Sonnet模型现已通过Anthropic的API提供,Haiku模型将很快推出。Sonnet还可以通过亚马逊Bedrock以及Google Cloud的Vertex AI Model Garden的私有预览进行访问。

关于LLM基准的一些话 我们注册了Claude Pro,用一些非正式的测试来尝试Opus。Opus在能力上与ChatGPT-4相似。它不能写出原创的幽默笑话(所有的都似乎都是从网络上获取的),在总结信息和以各种风格撰写文本方面表现出色,在逻辑分析单词问题方面表现良好,在涉及更为晦涩的主题时,出现的虚构内容似乎相对较少。

这些都不是绝对的通过或失败,而在一个通常以硬数字和可量化基准输出的计算机产品世界中,这可能会让人感到沮丧。正如Willison告诉我们的那样,“‘氛围’是现代人工智能的一个关键概念”。

AI基准很棘手,因为任何AI助手的效果都会因所使用的提示和基础AI模型的调整而高度变化。AI模型可以在“测试中”表现良好(就这么说吧),但在将这些能力推广到新颖情况下可能会失败。

此外,AI助手的效果高度主观(因此Willison的“氛围”)。这是因为让AI模型成功完成你想做的事情在量化方面(比如说,以基准度量)是困难的,因为你给它的任务可能是地球上任何领域的任何任务。一些模型对一些任务有效,对另一些任务无效,这可以根据任务和提示风格以及人与人之间的差异而变化。

所有这些都适用于Google、OpenAI和Meta等供应商的每个大型语言模型——不仅仅是Claude 3。随着时间的推移,人们发现每个模型都有自己的特点,每个模型的优缺点可以通过某些提示技术来接受或解决。眼下,看起来主要的AI助手正在逐渐形成一套非常相似的能力。

因此,Anthropic声称Claude 3可以胜过当前普遍被视为市场领先的GPT-4 Turbo,这需要谨慎对待——或者说需要一种“氛围”的观点。如果您正在考虑不同的模型,那么个人测试每个模型以查看其是否符合您的应用程序至关重要,因为可能没有其他人能够复制您使用它的确切环境。

文章来源于互联网:Anthropic发布Claude 3,宣称拥有“接近人类”的能力,AI竞争白热化

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注