微軟最新發表的 BitNet b1.58 模型展現出極簡 AI 架構的潛力,透過僅使用 1-bit 權重設計,大幅降低記憶體與運算資源需求。該模型約有 1.3 億個參數,但只需 0.4GB 記憶體即可運作,相較於其他需 2 至 5GB 記憶體的全精度模型,佔用資源大幅減少。

BitNet 採用特殊設計的 Transformer 架構,並結合 scale-aware quantization 與 layer-wise binarization 技術,使得在保持模型準確度的同時,將權重壓縮至 1-bit 。在推論過程中,該模型幾乎完全依賴加法與邏輯指令,避免高成本的乘法運算,進而實現極高效率。根據研究團隊估計,BitNet b1.58 推論時的能源消耗可比傳統 full-precision 模型降低 85% 至 96% 。
實測顯示,BitNet b1.58 能夠在 Apple M2 等消費級 CPU 上達到每秒 5 至 7 個 token 的生成速度,已接近人類閱讀速率。研究人員透過為 BitNet 架構量身打造的高度最佳化的核心,大幅提高其在 ARM 與 x86 架構下的推論表現。目前這些核心已開放下載,使用者也可透過官方網頁進行線上試用。
儘管其架構極為簡化,BitNet 在多項基準測試中展現出與同級全精度模型相當的表現,包括推理能力、數學運算與知識型問答等項目。研究團隊指出,目前仍無法完全解釋為何如此低精度的設計仍能保持競爭力,未來將持續深入探討其理論基礎與可擴展性。
BitNet b1.58 展現了一種具潛力的替代路徑,對於當前 AI 訓練與推論仰賴 GPU 、消耗大量能源的現況提供反思。微軟研究人員表示,現今的 AI 模型如同肌肉車,強悍卻耗能;而 BitNet 則像是節能小車,用更少的資源達成相似的目標,未來有望應用於低功耗設備、邊緣運算與永續 AI 發展方向。
