1/2
Anthropic发布首款混合推理模型:擅长解决实际问题,得分远超OpenAI
澎湃新闻02-25 21:14:00

被视为OpenAI竞争对手的美国AI(人工智能)初创公司Anthropic宣布推出“迄今为止最智能的首款混合推理模型”。

当地时间2月24日,由美国科技巨头亚马逊投资支持的Anthropic宣布推出新模型Claude 3.7 Sonnet,并将其称为“市面上首款混合推理模型”。根据用户的选择,Claude 3.7 Sonnet既可以快速地给出回应,也可以向用户提供扩展后的分步思考。用户可以免费使用Claude 3.7 Sonnet,但扩展思考模式仅向付费用户开放。同时,公司还推出了代理编码工具Claude Code。

据官方介绍,Claude 3.7 Sonnet 在编码和前端Web开发方面表现出了“特别显著的改进”,在升级后,Claude模型的价格与前代产品相同,每百万输入token(文本中的最小单位)定价3美元,每百万输出token定价15美元。而OpenAI的o1模型定价分别为每百万输入token花费15美元和每百万输出token花费60美元。

Anthropic方面强调,团队开发新模型的理念不同于市场上的其他推理模型:“正如人类使用单个大脑进行快速反应和深度思考一样,我们认为推理应该体现前沿模型的综合能力,而不是完全独立的模型。这种统一的方法也为用户创造了更加无缝的体验。”

因此,公司将新模型定义为“市面上首款混合推理模型”。在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版;而在扩展思维模式下,模型会在回答前进行自我反思,从而提高其在数学、物理和编码等任务上的表现。

此外,当用户通过API(应用程序编程接口)使用Claude 3.7 Sonnet时,用户可以通过命令Claude思考不超过多少token来控制“思考预算”,该数值需要小于模型输出限制的12.8万个token,以便于用户在速度、成本和答案质量之间进行权衡。

Anthropic方面还指出,新模型最大的优势是“更擅长现实世界中的任务”,而不是针对“数学和计算机科学竞赛问题进行优化”。在评估AI模型解决实际软件问题的能力的编码测试SWE-Bench Verified中,Claude 3.7 Sonnet的得分从Claude 3.5 Sonnet的49.0%提升至62.3%,在经过特定框架调整后最高得分可至70.3%。OpenAI o3-mini和DeepSeek R1在该项测试上的得分分别为49.3%和49.2%。

在指令遵循、一般推理、多模态能力和代理编码方面,Claude 3.7 Sonnet都取得了出色的表现,扩展思维模式则在数学和科学方面展现出了显著提升。Anthropic表示,除了传统的基准测试之外,Claude 3.7 Sonnet甚至还在《精灵宝可梦:红》的游戏测试中超越了Claude系列过去的所有模型。

Claude 3.7 Sonnet(开启或关闭扩展思维模式)在各大基准测试中的得分。来源:Anthropic

同时,Anthropic宣布推出旗下第一款代理编码工具Claude Code,可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到GitHub,以及使用命令行工具。据介绍,在早期测试中,Claude Code一次性完成了通常需要45分钟以上手动操作才能完成的任务。目前,该工具已开放预览版,将在未来几周内不断改进。

另据外媒报道,24日当天,Anthropic即将完成一轮35亿美元的融资,公司估值将达到615亿美元。公司本轮融资的最初目标为20亿美元,但在谈判期间成功说服投资者增加投资。本轮融资的参与者包括Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners,总部位于阿布扎比的投资公司MGX正在洽谈参与事宜。

不过,Anthropic依然面对较大的竞争压力。据知情人士透露,Anthropic的年化收入(根据近期销售额推断未来12个月的收入)在近期达到约12亿美元,公司仍在亏损,将利用最新融资的现金支持训练更强大的AI模型。亚马逊已向Anthropic累计投资80亿美元,而谷歌母公司Alphabet已向其投资20亿美元。

此前,1月20日,中国AI初创公司深度求索(DeepSeek)推出开源推理模型DeepSeek-R1,凭借其性能表现引发全球AI界轰动,各家AI大模型企业也纷纷宣布推出自己的推理模型。例如,OpenAI发布推理模型o3-mini,谷歌也在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking实验版。

此外,2月25日,阿里通义Qwen发布基于旗舰模型Qwen2.5-Max构建的推理模型QwQ-Max-Preview预览版,会和DeepSeek以及Kimi的推理模型一样展现思考过程,目前用户可在通义千问网页版进行体验。通义千问团队表示,QWQ-Max的官方版本将在近日发布,会同步发布安卓和iOS版应用程序,以及规模更小的可在本地设备部署的模型。

知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781