国产AI突破!600亿大模型装进手机的瓶颈终被打破

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
随着人工智能技术的飞速发展,大语言模型(LLM)的参数量不断攀升,从数十亿到数千亿不等。然而,模型的庞大体量直接带来了巨大的内存和算力需求,这成为了将强大AI能力部署到个人终端设备(如手机)上的核心瓶颈。一个拥有 80 亿(8B)参数的模型,通常就需要约 16GB 的显存才能流畅运行。参数越多,对内存的“饥渴度”就越高,这不仅推高了硬件成本,也限制了AI在移动端的普及。
近期,中国AI公司面壁智能联合清华大学、OpenBMB开源社区,在华为鲲鹏昇腾开发者大会上发布了BitCPM-CANN系列模型,宣布在将 600 亿参数大模型装进手机的瓶颈上取得了关键性突破。这项成就不仅为国产AI算力注入了新的活力,更预示着端侧AI应用的新时代即将到来。

三值量化:以“极简”应对“庞大”

传统大模型采用高精度数字存储权重,每个参数可能包含数万种不同的数值,这保证了模型的高性能,但也极度消耗内存。面壁智能此次突破的核心技术之一是三值量化(Ternary Quantization)。这是一种极其激进的模型压缩技术,将模型参数的可选数值从数万种锐减到仅仅三种。从技术角度看,这相当于将每个参数的存储精度压缩到约 1.58 个二进制位。
打个比方,如果全精度模型的权重像一幅细节丰富的全彩照片,那么三值量化就像是将其转化为一张仅包含黑、白、灰三种颜色的极简线条画。直观上,这样的压缩似乎必然会导致性能的严重损失。然而,过去两年的研究(包括微软研究院的BitNet系列和PrismML的Ternary Bonsai)反复证明,大型模型内部存在大量的冗余信息。通过精巧的设计和分配,这三种数值足以承载模型绝大部分的知识和能力。

BitCPM-CANN:国产算力上的“第一次”

全球范围内,三值量化技术的研究和实践正在加速,微软、PrismML等公司均有布局。但一个关键问题长期悬而未决:三值大模型能否在非NVIDIA的国产算力上实现端到端的训练?
面壁智能的BitCPM-CANN给出了肯定的答案,并在华为昇腾平台上创造了多项“第一次”:
  • 首次在昇腾上端到端完成三值大模型训练:此前所有公开的三值模型训练都在NVIDIA GPU上完成。BitCPM-CANN的成功,意味着国产芯片阵营首次拥有了自主的三值大模型训练能力。
  • 首次将规模推至 8B 参数:以往在昇腾上的低比特训练多停留在小规模验证阶段。BitCPM-CANN一次性发布了 0.5B、1B、3B、8B 四个档位,覆盖了从手机到PC的完整端侧场景需求。
  • 首次实现与全精度模型的完整对照评测:在常识、阅读理解、学科知识、数学推理等 11 项任务、四大类评测中,BitCPM-CANN的 1B 到 8B 模型在能力保留率上达到了 95.7%至 97.2%之间。
特别是 3B 档位模型,其能力保留率高达 97.2%,这意味着其性能损失微乎其微,与同尺寸的MiniCPM4全精度模型相比,差距甚至小于许多全精度模型之间的固有差距。更重要的是,BitCPM-CANN 的所有版本均已开源,可供开发者直接下载复现,这为整个AI生态注入了强大的动力。

6倍显存红利:从服务器到手机的普惠

BitCPM-CANN相比BF16全精度模型,能够节省约 6 倍的显存。这意味着,一个原本需要 16GB 显存的 8B 参数模型,在采用三值量化后,其显存占用将不足 3GB。这使得模型能够流畅地运行在普通智能手机上。
更令人振奋的是,通过结合混合专家模型(MoE)架构和激活范围约束等技术,面壁智能的方案有望让 600 亿参数规模的大模型直接部署在一部 8GB 内存的手机上。这不仅解决了AI算力在终端部署的“内存墙”问题,也与当前高通等芯片厂商发布的、支持原生低比特推理的最新旗舰芯片(如骁龙 8 Gen 3/4 系列)形成了“双向奔赴”的良好生态。
在AI基础设施成本持续攀升(如DRAM价格上涨)的背景下,节省显存的意义不亚于“刚需”。它意味着在不增加物理内存的情况下,大幅提升设备上的AI模型能力,为手机厂商、车机制造商以及各类智能硬件厂商提供了极具吸引力的解决方案。

面壁智能的“效率优先”之道

为何是面壁智能能够在此赛道上脱颖而出?这与其成立之初就坚持的“效率优先”战略密不可分。当行业普遍追求模型规模的“大”时,面壁智能则聚焦于“小而强”——如何用更少的资源训练出足够优秀、足够高效的模型。他们早期投入研发的底层训练框架 BM-Train,以及广受欢迎的端侧模型 MiniCPM 系列(在GitHub上积累超3万星,HuggingFace下载量超3000万),都为其积累了宝贵的技术底蕴和工程经验。
BitCPM-CANN并非简单地将一个已有的模型移植到国产芯片上,而是将一套完整、经过验证的训练方法论、效率路线和工程体系,成功迁移并适配到了华为昇腾国产算力的底座上。这种端到端的自主可控能力,从训练框架、方法论、模型到芯片适配,构建了一条完整的端侧技术路线,展现了中国AI在核心技术自主研发上的决心与实力。

展望未来:端侧AI的无限可能

面壁智能的下一步目标明确:进一步提升模型在低比特下的能力保留率,通过MoE架构扩展更大规模模型的容量,并将 6 倍显存的红利完整释放到实际部署中。更长远来看,他们致力于实现从模型预训练到对齐的全流程低比特化。
当AI竞争从“谁的模型更大”转向“谁能让智能真正跑在每一台设备上”时,掌握端侧技术话语权,能够将强大AI能力无缝集成到用户身边的设备中的团队,才真正站在了未来的有利位置。BitCPM-CANN的成功,标志着中国AI在这一关键领域迈出了坚实的一步,为全球AI的普及和应用开辟了新的道路。
Loading...

没有找到文章