Microsoft 的研究人员称他们已经开发出了迄今为止最大的 1-bit AI 模型,也被称为 “bitnet”。该模型名为 BitNet b1.58 2B4T,在 MIT 许可证下公开发布,并且可以在包括 Apple M2 在内的 CPU 上运行。
Bitnets 本质上是为轻量级硬件设计的压缩模型。在标准模型中,定义模型内部结构的数值即权重,通常经过量化处理,以便模型在各种设备上均能良好运行。对权重进行量化减少了表示这些权重所需的比特数 —— 比特是计算机能处理的最小单位 —— 这使得模型可以在内存较少、运行速度更快的芯片上运行。
Bitnets 将权重量化为仅三个值:-1、0 和 1。理论上,这使它们在内存和计算效率上远超当今大多数模型。
Microsoft 的研究人员表示,BitNet b1.58 2B4T 是首个拥有 20 亿参数的 bitnet(“参数”在这里基本上与“权重”同义)。据称,该模型在一个包含 4 万亿 Token 的数据集上训练 —— 一项估计相当于约 3300 万本书 —— 使其在性能上优于同类规模的传统模型。
需要明确的是,BitNet b1.58 2B4T 并未彻底超越所有竞品的 20 亿参数模型,但它似乎能够与之抗衡。根据研究人员的测试结果,该模型在 GSM8K(一组小学水平的数学问题)和 PIQA(测试物理常识推理能力)等基准测试中,表现均超过了 Meta 的 Llama 3.2 1B、Google 的 Gemma 3 1B 和 Alibaba 的 Qwen 2.5 1.5B。
更为引人注目的是,BitNet b1.58 2B4T 的运行速度比同等规模的其他模型更快 —— 在某些情况下,其速度是对方的两倍,而所需内存却只有极小的一部分。
然而,这也有一个前提条件。
实现这种性能需要使用 Microsoft 自研的框架 bitnet.cpp,而该框架目前仅支持某些特定硬件。支持芯片列表中并未包括统治 AI 基础设施格局的 GPU。
总的来说,bitnets 可能存在希望,尤其适用于资源受限的设备。但兼容性问题 —— 并且很可能将继续成为一个主要障碍。