微软这个开源项目火了:不用GPU,普通电脑就能跑100B大模型,HN 370赞

不用GPU，不用云API，不用花几万块买显卡。

一台普通笔记本，甚至是树莓派5，就能在本地跑大语言模型，速度达到人类阅读速度（5-7 tokens/秒）。

这不是噱头，是微软刚刚在 Hacker News 上斩获37k点赞的开源项目：BitNet.cpp。

一个颠覆常识的数字

AI 圈有个公开的鄙视链：模型越大越强，跑模型需要的显卡越贵越好。

一张 H100 显卡要七八万人民币。训练和推理 100B 参数的模型，正常情况下需要多张 A100/H100 组成的机器。

BitNet 把这个逻辑撕碎了。

100B 参数的模型，可以跑在一块普通 CPU 上。

不是缩水版，不是蒸馏版，是完整的100B参数推理——每秒5-7个token，你读文章的速度。

为什么可以做到？核心原理

传统大模型存储权重的方式，是32位浮点数（float32），每个参数占4字节。

BitNet 换了一种思路：1.58位三值量化，每个权重只有三个可能的值：-1、0、1。

每个参数从4字节压缩到约0.2字节，体积缩减至原来的1/20。

更关键的是：浮点乘法变成了整数加减法。CPU 做整数加减比浮点乘法快得多，能耗也低得多。

实测数据：

x86 CPU：推理速度提升 2.37x~6.17x，能耗降低 72-82%
ARM CPU（M1/M2/树莓派）：速度提升 1.37x~5.07x，能耗降低 55-70%

微软还在2026年1月推出了 CPU 推理优化版本，在原有基础上再提速 1.15x~2.1x。

手把手：5步跑起来

环境要求：

Python 3.9+
CMake 3.22+
Conda（推荐）
Linux：Clang 18+ / macOS：直接用 / Windows：Visual Studio 2022 C++ 工具

第一步：克隆仓库

git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet

注意 --recursive 不能省，BitNet.cpp 依赖一个定制版的 llama.cpp 子模块。

第二步：创建环境

conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt

第三步：下载模型

微软在 HuggingFace 上官方发布了 BitNet b1.58 2B/4T 版本：

huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf \
  --local-dir models/BitNet-b1.58-2B-4T

没有 huggingface-cli？先装一下：pip install huggingface_hub

第四步：编译

python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s

-q i2_s 是1.58-bit量化格式，BitNet 官方格式。这一步会自动根据你的 CPU 架构编译最优的内核。

第五步：跑起来

python run_inference.py \
  -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
  -p "解释一下什么是量子纠缠" \
  -n 200

就这样。没有云端调用，没有API费，没有网络延迟，结果直接在终端输出。

进阶：交互式对话模式

上面是单次推理。想要对话？加 -cnv 参数：

python run_inference.py \
  -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
  -cnv \
  -sys "你是一个专业的Python编程助手" \
  -n 512

也可以直接在官方 Azure 上试演示版： demo-bitnet-h0h8hcfqeqhrf5gf.canadacentral-01.azurewebsites.net

不想折腾环境，先体验再决定。

BitNet 适合做什么？

本地部署最大的价值，不是省钱（虽然也省），是数据隐私。

你的代码、合同、内部文档，发给 ChatGPT 之前你会想一想。但跑在本地的模型——这些数据根本不出网卡。

几个典型场景：

代码注释/补全：一个 2B 的模型跑在本地，处理单文件的代码补全完全够用，而且秒级响应。

文档摘要：企业内部 PDF、合同文本，敏感度高，本地跑最安心。

嵌入式/边缘部署：IoT 设备、工厂自动化、离线机器人，这才是 BitNet 真正的使命。树莓派5跑3B模型每秒11个token，这放三年前根本不敢想。

个人知识库问答：配合 RAG，把自己的笔记、文档接进来，私有化的本地知识库助手。

一个不得不说的局限

2B 参数的模型，能力上限就在这里。

复杂推理、代码生成大型项目、创意写作——比不过 Claude Sonnet 或者 GPT-4。

BitNet 不是来取代云端大模型的，它解决的是**「我需要AI但不想/不能连网」**的问题。

两者是互补关系，不是替代关系。

为什么这个方向很重要

所有人都在卷参数量、卷上下文长度、卷多模态——但很少有人在卷「怎么让普通设备也能跑AI」。

BitNet 的价值不只是技术层面的。它代表了一种思路：AI 不应该永远依赖昂贵的基础设施。

当一块30块钱的单片机也能本地推理，AI 才算真正普及了。

微软把这个框架完整开源，而且性能数据是真实的——GitHub 37k+ stars 的 HN 热度不是买来的。

你有没有跑本地模型的需求？是为了隐私、省钱，还是就是想研究一下？

评论区说说你的场景，看看 BitNet 是不是解法。