24人团队硬刚英伟达!Taalas HC1芯片实现每秒17000个token推理神话

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:AI硬件领域的“小钢炮”震撼硅谷

在生成式人工智能(AIGC)浪潮中,英伟达(NVIDIA)的GPU一直被视为不可逾越的算力大山。然而,一家成立仅两年、团队规模仅有24人的初创公司 Taalas,却带着其首款代号为 HC1 的芯片横空出世,直接向行业巨头发起挑战。
这款芯片不仅在性能上实现了质的飞跃,更在成本和功耗上对传统通用GPU进行了“降维打击”。HC1芯片的峰值推理速度达到了惊人的 每秒17000个token,这意味着大语言模型(LLM)的响应速度将跨入亚毫秒级时代。想要获取更多前沿 AI资讯AI新闻,欢迎访问 AI门户

性能神话:10倍速提升与20倍成本骤减

在当前的AI硬件市场中,Cerebras被公认为推理速度的佼佼者,其速度约为2000 token/s。而Taalas的HC1芯片直接将这一数字提升了近10倍。相比之下,英伟达Blackwell架构的B200在运行同类模型时,速度仅为每秒350个token左右。
具体数据对比显示,在搭载Llama 3.1 8B模型时: * Taalas HC1:17000 token/s * Cerebras:~2000 token/s * SambaNova:~900 token/s * Groq:~600 token/s * 英伟达 B200:~350 token/s
除了速度,HC1在能效比上也表现出色。其典型功耗仅为250W,采用台积电N6工艺,体积小巧。一个标准的服务器机架如果配齐10颗HC1,功耗也仅需2.5kW,完全可以使用常规的空气冷却方案部署,极大地降低了数据中心的运营门槛。

技术内核:芯片即模型的极端ASIC方案

Taalas之所以能实现如此恐怖的性能,是因为它选择了一条极其极端的路径:模型不再加载到内存中,而是直接刻在硅片上。
HC1借鉴了2000年代初期的结构化ASIC理念。传统的通用芯片(如GPU)为了保持灵活性,牺牲了大量的电路效率。而Taalas的做法是放弃绝大多数可编程功能,将AI模型的权重通过基于掩模ROM(Mask ROM)的架构直接固化在芯片硬件中。
这种“物理硬连线”的设计省去了传统存算分离带来的巨大延迟和功耗。为了保留微调的灵活性,芯片内部仍保留了一个可编程的SRAM,用于保存LoRA等微调权重和KV缓存。通过这种方式,Taalas将芯片的生产周期从通常的六个月缩短到了两个月,实现了从模型到硅片的快速转化。

梦之队背景:AMD前高管的第二次创业

Taalas的成功并非偶然,其背后的创始团队被誉为“AMD前高管梦之队”。
公司创始人 Ljubiša Bajić 曾是AMD的集成电路设计总监,并在英伟达负责过高性能GPU的研发。更重要的是,他还是另一家知名AI芯片公司Tenstorrent的创始人兼首任CEO。与他一同创业的还有来自AMD、ATI和Altera的多位资深技术专家。
这群芯片行业的“老兵”深谙半导体设计的底层逻辑。他们致力于开发一种全新的、专为AI推理设计的分层架构。Taalas目前已经筹集了2亿美元的投资,并计划在未来推出更高密度的HC2芯片,以支持更大规模的模型。对于关注 AGILLM 发展的读者来说,这无疑是今年最值得关注的硬件进展。

争议与挑战:灵活性 vs 效率的博弈

尽管HC1的表现令人惊艳,但业界也存在不少质疑的声音。最核心的问题在于:大模型迭代速度极快,固化在芯片上的模型是否会迅速过时?
对于需要频繁更换模型结构的应用场景,HC1的硬编码方式显得过于死板。然而,对于那些已经稳定、需要大规模部署的基础模型(如Llama系列或DeepSeek),HC1提供的极致性价比却是通用GPU无法比拟的。
此外,HC1在极速推理时的“推理深度”也受到了一些极客用户的实测质疑。Taalas团队对此的应对方案是引入LaRA适配器进行重新训练,以在灵活性和速度之间寻找最佳平衡点。

结论:AI硬件专用化的未来

Taalas的出现标志着AI算力市场正在进入一个新的阶段。随着 人工智能 应用的深入,通用的、昂贵的GPU可能不再是唯一的选择。像HC1这样针对特定 大模型 优化的专用芯片,将为企业提供更低成本、更高效率的推理方案。
无论你是开发者还是企业决策者,紧跟 AI日报Prompt 优化技巧,了解最新的硬件动态都至关重要。更多关于 openai, chatGPT, claude 等前沿技术的深度解析,请持续关注 AI门户,获取一手 AI资讯
Loading...

没有找到文章