九坤开源IQuest-Coder:40B参数代码大模型掀翻SOTA

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:量化巨头再次跨界“降维打击”

在人工智能领域,中国量化私募机构正逐渐成为一支不可忽视的技术力量。继幻方量化的DeepSeek惊艳全球后,另一家顶级量化巨头——北京的九坤投资(Ubiquant)也正式下场。近日,九坤投资旗下的至知创新研究院(IQuest Lab)冷不丁开源了名为 IQuest-Coder-V1 的代码大模型系列。
这款模型一经发布便在国内外科技圈引起轰动。其40B参数版本的性能在多个权威榜单上刷新了纪录,甚至被认为在特定任务上超越了尚未正式发布的业内顶级模型。更令人振奋的是,通过技术优化,这款拥有SOTA(State-of-the-Art)性能的40B模型,在单张消费级RTX 3090显卡上即可流畅运行。
想要了解更多前沿大模型动态和AI资讯,欢迎访问 AI门户

性能霸榜:40B参数掀翻“未来”旗舰

在衡量大模型解决真实软件工程问题能力的 SWE-Bench Verified 榜单中,IQuest-Coder-V1-40B 取得了 81.4% 的惊人成绩。这一分数不仅在开源界遥遥领先,甚至超过了外界对 Claude Opus-4.5 和 GPT-5.2(基于传闻参数规模)的预期表现。
不仅是 SWE-Bench,该模型在 BigCodeBench(49.9%)和 LiveCodeBench v6(81.1%)等八个核心代码与 Agentic 相关榜单中均表现优异。这种“小参数、大能量”的表现,再次证明了在LLM领域,模型架构的精巧与数据质量的纯净往往比盲目堆砌参数更为重要。

核心技术:Loop架构与128K长上下文

IQuest-Coder-V1之所以能实现如此高的效率,得益于其独特的架构设计:
  1. 分组查询注意力(GQA):有效减少了推理阶段的显存占用,使得长上下文处理更加顺滑。
  1. 原生128K上下文支持:模型能够轻松吞下整个代码库,理解跨文件的复杂逻辑依赖,这对于真实世界的软件工程任务至关重要。
  1. Loop变体架构:这是该模型的一大亮点。通过循环Transformer设计,在仅增加约5%训练成本的前提下,利用重复计算显著提升了参数利用率。40B的模型通过这种方式达到了千亿级MoE模型的性能水平。
  1. 极致部署优化:官方提供的 Int4 量化版本,让开发者在单张 3090 或 4090 显卡上就能体验 SOTA 级别的代码生成能力,极大地降低了个人开发者和中小企业的使用门槛。
对于关注人工智能落地的开发者来说,这种高性能且低成本的方案无疑具有巨大的吸引力。

训练秘籍:从代码的“演化”中学习

不同于传统的静态代码训练,IQuest-Coder 采用了 Code-Flow Multi-Stage Training(代码流多阶段训练策略)。
九坤团队认为,模型不应只学习最终的成品代码,而应理解代码是如何被一步步构建和修改的。他们设计了基于项目生命周期的 Triplet 数据构造方式:(Rold, Patch, Rnew)。通过这种方式,模型能够看到代码的旧版本、修改补丁以及新版本,从而学习到真实的“软件工程经验”。
这种训练方法让模型具备了捕捉软件逻辑动态演变的能力,使其在处理复杂的代码修复和功能迭代任务时,表现出比同类模型更强的工程直觉。更多关于大模型训练的深度解析,请持续关注 AI日报

幕后操盘手:九坤投资与至知创新研究院

IQuest-Coder 的横空出世,让九坤投资这家量化私募巨头走到了聚光灯下。九坤投资由清华校友王琛(师从姚期智院士)和北大校友姚齐聪共同创立,是国内量化交易的领军者。
九坤一直致力于将 AI 技术应用于金融市场预测,其 IT 和算力建设位居行业前三。此次发布模型的“至知创新研究院”是其发起的独立研究平台。除了代码大模型,九坤此前还发布过通用推理模型 URM,在 ARC-AGI 挑战中表现出色。
这标志着中国量化私募正在将他们在处理海量高频数据、优化计算效率方面的深厚积淀,转化为通用 AI 领域的竞争优势。

结论:国产开源大模型的新里程碑

IQuest-Coder-V1 的开源,不仅为开发者提供了一个强大的生产力工具,也为国产大模型的发展开辟了新思路。它证明了通过创新的训练策略和架构优化,中等规模的模型完全有能力挑战千亿级参数的巨头。
随着更多像九坤、幻方这样的技术导向型企业加入 AI 战场,我们可以预见,未来的AGI之路将会更加多元且精彩。如果你想获取更多关于 Prompt 优化技巧或 AI变现 的最新案例,AI门户 将为你提供全方位的支持。
Loading...

没有找到文章