Anthropic官宣融资4407亿,估值超越Opena...
type
status
date
slug
summary
tags
category
icon
password
网址
估值6.5万亿,真超OpenAI了。
今日凌晨,Anthropic最强通用模型Claude Opus 4.8正式发布,新模型基准测试全面超越Gemini 3.1 Pro、Opus 4.7,仅一项逊色于GPT-5.5,但其标准模式价格不变,快速模式价格仅为Opus 4.7的1/3。
与此同时,Anthropic还官宣一笔650亿美元(约合人民币4406.94亿元)H轮巨额融资,投后估值冲上9650亿美元(约合人民币6.54万亿元),相比今年2月的3800亿美元(约合人民币2.58万亿元)几乎翻了3倍。本轮融资由Altimeter Capital、Dragoneer、Greenoaks和红杉资本等多家知名投资领投。
Anthropic最新估值是OpenAI的约1.13倍。上周,英国《金融时报》报道称,OpenAI最新估值为8520亿美元(约合人民币5.78万亿元)。
Opus 4.8的最大升级为动态工作流,这使其可以生成数百个并行子智能体,执行从启动到合并的数十万行代码的大规模代码库迁移等大型任务。
Claude Opus 4.8现已全面上线,标准模式定价不变,快速模式是Opus 4.7、4.6的1/3。标准模式每百万输入token 5美元(约合人民币33.9元),每百万输出token 25美元(约合人民币169.5元),快速模式定价为每百万输入token 10美元(约合人民币67.8元),每百万输出token 50美元(约合人民币338.9元)。开发者可以通过Claude API使用claude-opus-4-8。
AI数据平台Databricks报告称,Opus 4.8在其Genie数据智能体中实现了“推理能力的飞跃式提升”,并且由于其在处理PDF和图表方面的多模态效率,其“token成本比Opus 4.7降低了61%”。
关于未来计划,Anthropic在博客中透露,他们计划推出智能水准超越Opus的全新系列模型,并预计在未来数周内,向全体客户开放Mythos级别模型,相关防护方案的研发工作正快速推进。
Claude更新后,马斯克还转帖称赞他们“干得漂亮”,却被评论区网友吐槽,你为什么不去修复Grok,而是要为别人鼓掌。
网友评价视觉质量提升明显
但数不清手指数
Anthropic官方未放出Opus 4.8相关的案例,不少网友在社交平台X上放出了自己的使用情况。
有开发者使用四元素项目对比了Opus 4.7、Opus 4.8和Opus 4.8 Max的效果,模型生成的视觉质量提升很明显。
早期体验者对Opus 4.8的评价很高,称新模型完全可以被叫做Opus 5,他们基于新模型生成了下面的网页。
有开发者通过最高思考力度(Max)模式测试了Opus 4.8,跑了《我的世界》相关任务。他评价说,Opus 4.8整体表现不错,相比 Opus 4.7有明显提升,所有任务一次运行就全部成功,但能力上并未实现跨越式突破。他的调用总成本为9~10美元(约合人民币61~68元)。
另一位开发者测试了“熔岩灯项目”,他测试的结果显示Opus 4.7反而比Opus 4.8看起来效果更好。
还有网友为Opus 4.8挖坑,上传了一张拥有六根手指的手掌图片,询问Opus 4.8这张图有几根手指。Opus 4.8的回答是,这是一只正常的人类手掌,有五根手指。
Reddit上已经有网友开始不留情面吐槽:“Opus 4.8自发布以来,性能出现了断崖式下滑。”他分析说,Anthropic可能为了省钱,开始用2比特量化模型跑服务了。
Anthropic在博客中也坦言,Opus 4.8相较于前代产品虽然升级不大,但改进都很切实。
基准测试几乎全面超过
GPT-5.5、Gemini 3.1 Pro
从基准测试表现来看,与Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro相比,Opus 4.8在智能体代码开发、跨学科推理、计算机使用、智能体金融分析以及在高价值知识工作中的干活能力,都全面超越了其他模型,仅在智能体终端编程方面,略逊色于GPT-5.5。
Anthropic发布了Opus 4.8的系统卡,其中提到,Opus 4.8与目前仍处于选择性发布的Mythos在不一致性行为方面非常接近,二者的偏差度约为1.9,低于Opus 4.7与Mythos的2.5。
Claude Opus 4.8的训练数据为Anthropic专有的混合数据集,包括来自互联网的公开信息、公共和私有数据集,以及其他模型生成的合成数据,其会通过去重和分类进行数据清洗和过滤。
其博客提到,Opus 4.8的优势在于最适合处理前代模型无法完成的任务及对性能要求极高的场景,专为专业软件工程、复杂的智能体工作流程和高风险的企业级任务而设计。
Opus 4.8具备自适应思维功能,能够根据任务的复杂程度自动调整其思考投入,在难题上花费更多时间,在简单问题上快速响应,其常见应用场景包括:
高级编程,在只需极少监督的情况下,Opus 4.8能够交付可用于生产环境的代码。模型能够进行周密的规划,在持续运行的情况下保持更长时间的稳定,并在大型代码库中运行。它还能自动检测并纠正错误。
AI智能体,Opus 4.8能进行周密的计划,利用记忆功能跨会话学习,并在极少人工干预的情况下推动需要长时间运行的工作。
企业工作流程:在企业端,该模型可以跨会话传递上下文,并具备强大的电子表格、幻灯片和文档性能,端到端地管理复杂、多天项目。
用户可手动控制思考力度
比前代模型更诚实
Claude的主要更新包括:
首先是动态工作流,基于此,Claude可以规划工作,然后在单个会话中运行数百个并行子智能体,之后验证输出结果,并将结果反馈给用户。例如,搭载Opus 4.8的Claude Code现在能够以现有测试套件为基准,执行从启动到合并的数十万行代码的大规模代码库迁移。
该功能目前处于研究预览阶段,Claude Code的企业版、团队版和Max版用户可体验。
其次是为claude.ai和Cowork新增了思考力度控制(Effort control)功能。在模型选择器旁,Anthropic为用户新增了可以设定Claude在生成回答时投入多大的“思考力度”的按钮。高力度设置下,Claude会更频繁、更深入地思考,从而提供更优质的回复,反之其思考少,回复速度会更快。
该功能现已对所有套餐开放,用户可自由选择。
最后是Claude消息接口(Messages API)现支持在消息数组内加入系统指令。开发者可在任务执行过程中动态更新模型指引,既不会中断提示词缓存,也无需借助用户轮次来传递更新内容。借助该能力,开发者能在智能体运行时,实时调整权限、token配额及环境上下文。
Opus 4.8的诚实性方面,早期测试人员称,Opus 4.8更有可能标记出其工作中的不确定性,并且不太可能做出未经证实的断言。Anthropic内部评估结果表明,相较于前代版本,Opus 4.8放任自身编写的代码漏洞被遗漏、未被检出的概率降低至约1/4。
新融资含亚马逊投的50亿美元
官宣融资时,Anthropic还透露,本月初其年化收入已突破470亿美元(约合人民币3186亿元)。此次融资预计将用于推进安全性和可解释性研究,扩展计算能力以满足不断增长的Claude需求,并扩大客户所依赖的产品和合作伙伴关系。
除前文提到的领投方,本轮重要的其他投资者包括AMP PBC、Baillie Gifford、淡马锡等十余家投资机构。
值得一提的是,这轮融资还涵盖了超大型科技企业之前就已经许诺投入的150亿美元(约合人民币1017亿元)投资,这其中就包含亚马逊投资的50亿美元(约合人民币339亿元)。
美光、三星与SK海力士作为Anthropic的战略基础设施合作伙伴同步入局。
近几周,Anthropic大幅提升了计算能力,与亚马逊签署协议新增高达5吉瓦的计算能力;与谷歌和博通签署了协议,新增5吉瓦的下一代TPU计算能力;与SpaceX签署协议,使用Colossus 1和Colossus 2的GPU计算能力。
Claude也是全球首个同时支持亚马逊云服务、谷歌云和微软Azure全球三大云平台的前沿模型。不过,AWS仍然是其主要云服务提供商和训练合作伙伴。
结语:新模型发布节奏加快
Anthropic压力倍增?
可以看出,Claude的更新没有追求颠覆式的能力升级,而是将目标放到了降低成本上。Anthropic还透露,他们正持续研发并推出多款模型,力求以更低成本实现与Opus系列相近的能力。
Opus 4.8的发布节奏相比以往要更快,其在Opus 4.7发布仅41天后便问世,而此前Sonnet和Haiku系列模型的发布周期长达三个月、七个月。或许是因为,OpenAI的Codex和谷歌的Gemini Flash模型相继发布新的重要版本,让Anthropic感受到压力,使其必须跟上步伐。
文章来自于微信公众号 "智东西",作者 "智东西"
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)