Devin之父再出山!SWE-1.5速度与性能的终极博弈
type
status
date
slug
summary
tags
category
icon
password
网址
引言
在人工智能(AI)浪潮席卷全球的今天,AI编码领域再次迎来一位重量级选手。曾以首个AI软件工程师Devin惊艳世界的Cognition公司,近日高调推出了其全新的高速AI编码模型——SWE-1.5。这款模型号称依托数千颗英伟达下一代GB200芯片训练而成,生成速度峰值可达惊人的950 token/秒,在速度上对标乃至超越了市面上所有主流模型。然而,极致的速度背后,其真实编码能力却在社区实测中引发了不小的争议。SWE-1.5究竟是革命性的突破,还是又一场性能“滑铁卢”?这篇最新的AI新闻将带你深入剖析。
速度为王:英伟达GB200与Cerebras联手打造的性能怪兽
Cognition从一开始就明确了SWE-1.5的核心设计理念:开发者不应在“思考速度”与“思考质量”之间做出妥协。为了实现这一目标,SWE-1.5在两个层面进行了极致的投入。
首先是硬件基础。作为全球首批基于英伟达GB200 NVL72芯片集群训练的公开生产级大模型,SWE-1.5的诞生可谓是站在了巨人的肩膀上。GB200作为“性能怪兽”,其在LLM推理工作负载上的性能相比H100有高达30倍的提升,这为SWE-1.5的复杂训练和高速推理提供了无与伦比的算力支持。
其次是推理优化。Cognition与专业的推理服务商Cerebras深度合作,通过部署优化的草稿模型以实现更快的投机解码,并构建了定制化的请求优先级系统。这一系列优化措施,最终将SWE-1.5的端到端处理速度推向了950 token/秒的巅峰。这是什么概念?官方数据显示,其速度分别是Anthropic旗下Haiku 4.5的6倍和Sonnet 4.5的13倍,更是其直接竞争对手Cursor Composer(250 token/秒)的近4倍。Cognition认为,将任务响应时间控制在5秒内,是维持开发者“心流状态”的关键,而SWE-1.5正是为此而生。
不止于快:端到端强化学习与高保真编码环境
如果说速度是SWE-1.5的利刃,那么其独特的训练方法和环境则是其坚实的盾牌。与许多依赖通用奖励函数进行微调的LLM不同,SWE-1.5的开发过程是一个系统工程。
- 端到端强化学习(RL):模型在Cognition自研的Cascade智能体框架上,通过端到端的强化学习进行训练。这意味着模型不仅仅是学习代码片段,而是在模拟真实开发任务的环境中,学习从理解需求到执行、调试、验证的完整工作流。
*   高保真编码环境:Cognition投入巨大资源,与顶尖工程师和开源维护者合作,手动创建了一个高度还原真实开发场景的数据集和评估体系。该环境包含三重评分机制:
    1.  经典测试:通过单元测试和集成测试验证代码的正确性。
    2.  评分标准(Rubrics):由专家评估代码质量与实现思路的优劣。
    3.  智能体评分(Agentic grading):利用可操作浏览器的智能体,从产品功能层面测试端到端完整性。
- 奖励强化(Reward Hardening):为了防止模型利用捷径“欺骗”评分系统(reward hacking),Cognition引入了一个独特的流程,由人类专家主动寻找并封堵评分器的漏洞。这种精益求精的训练方式,旨在打造一个真正理解软件工程的人工智能模型。
市场对决:SWE-1.5与Cursor Composer的同与不同
SWE-1.5的发布,不可避免地让人将其与AI编码编辑器Cursor推出的专属模型Composer进行比较。这场对决也揭示了AI开发者工具市场的战略趋同。
共同点:
*   垂直整合:两家公司都选择自研专有模型,并深度集成到自家的IDE或编辑器中,旨在打造低延迟、高协同的开发者体验,摆脱对第三方API的依赖。
*   大规模强化学习:双方都采用了在数万个并发沙盒环境中运行强化学习的相似技术路径,这表明业界已形成共识——要打造顶级的AI编码智能体,必须将模型与真实工具链和场景深度结合进行微调。
*   技术保密:双方都未透露其模型所基于的开源基础模型,这为第三方独立评估带来了挑战。
不同点:
最显著的差异在于速度。SWE-1.5高达950 token/秒的速度,在纸面上遥遥领先于Composer的250 token/秒。Cognition似乎在押注,极致的速度体验能够培养起足够的用户忠诚度,即使模型的参数规模并非市场最大。
冰与火之歌:用户实测下的“滑铁卢”疑云
尽管在SWE-Bench Pro基准测试中,SWE-1.5取得了40.08%的优异成绩,仅次于Claude Sonnet 4.5,但在真实的开发者社区中,反馈却呈现出两极分化的态势。
赞誉方认为,SWE-1.5的速度确实令人印象深刻。“它感觉真的非常快,”AI专家Simon Willison在测试后表示。对于小型、明确的任务,其表现可圈可点。
然而,批评声同样不容忽视。有用户反馈,在处理一个稍复杂的任务时,SWE-1.5不仅失败了,甚至还通过无效的差异编辑搞乱了代码库。相比之下,竞争对手Cursor的Composer或GPT系列模型却能一次性成功解决。这暴露了一个核心问题:在追求速度的同时,模型的稳定性和对复杂问题的理解深度是否打了折扣?基准测试的高分,似乎并未完全转化为现实世界中无懈可击的可靠性。
结论
SWE-1.5的问世,无疑是AI编程领域的一大步。它展示了顶级硬件(英伟达GB200)与先进训练方法(端到端RL)结合的巨大潜力,将AI编码工具的速度推向了新的高度。然而,用户的褒贬不一也提醒我们,从“能用”到“好用”再到“可靠”,AI智能体还有很长的路要走。
这场由Cognition和Cursor引领的竞赛,标志着AI开发者工具正从依赖通用大模型API的时代,迈向一个更加垂直、集成和定制化的新阶段。未来,速度、智能与可靠性的平衡,将成为决定谁能最终赢得开发者芳心的关键。想要获取更多关于AI、大模型的前沿AI资讯和深度分析,欢迎访问AI门户网站 https://aigc.bar,掌握最新动态。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)