闲置电脑也能跑千亿参数大模型!Gradient开源Parallax,让你一台笔记本+几块GPU就拥有私人AI超算,异构的Exo

GradientHQ/parallax。它不是又一个“玩具级”推理工具，而是一个真正能让你用家里的设备拼出一个AI集群的分布式推理引擎。简单说：以前大模型动不动就要租云上A100/H100，现在Parallax可以把你的MacBook、台式机、闲置GPU、甚至队友的机器串起来，像一台超级计算机一样跑DeepSeek、Llama、Qwen这些顶级模型。

感觉这东西直接把“主权AI”从概念变成了现实。

先说说痛点，大家都懂

现在大模型越做越大，单机显存根本不够，云端又贵、排队、数据还得送出去。想本地跑个70B+的模型？要么买一堆显卡，要么眼巴巴看着别人玩。Parallax直接把这个问题干掉了：模型分片（pipeline-parallel sharding）+ P2P调度，模型层自动切开，藏状态（KV Cache）分页管理，请求动态路由，不管设备在同一个局域网还是跨公网，都能协同工作。

把异构硬件变成一个“可追踪的统一服务”，笔记本、实验室GPU、队友工作站……全都可以贡献算力，请求走最快的路径，不需要公网IP，不需要硬件完全一样。

Parallax到底能干啥？

●本地托管LLM：支持40+开源模型，从0.6B到万亿参数MoE，覆盖DeepSeek系列、MiniMax、GLM、Kimi、Qwen、Llama 3全家桶等，还包括各种量化版本。

●跨平台：Windows、Linux、macOS全支持，GPU用SGLang/vLLM，苹果硅用MLX LM，Mac上也能连续批处理和Paged KV Cache。

●高性能调度：动态请求路由、连续批处理、pipeline并行，官方对比Petals，在双节点RTX 5090上跑Qwen2.5-72B，端到端延迟低3.1倍，输出吞吐更高。

●实际场景： coding copilot、私人助手、视觉/语音流水线、多智能体模拟……你想跑什么AI应用，都能自己搭集群，不用再看云厂商脸色。

Gradient把这玩意儿叫“主权AI操作系统”（Sovereign AI OS）。听起来有点大，但确实贴切——它不是单纯的推理框架，而是把分布式运行时、P2P通信（基于Lattica）、异构Worker全部打通，让普通人也能拥有“自己的AI基础设施”。

怎么玩？上手其实不难

项目已经开源在GitHub：GradientHQ/parallax

README里有详细的安装指南和Quick Start，文档也放在Gradient官网。基本流程就是：

1.按文档装好依赖（支持Docker也很友好）。

2.把几台机器加进同一个Parallax网络。

3.指定要跑的模型，Parallax自动做分片和调度。

目前已经支持OpenClaw集成。

作为早期开源项目（0.0.1版本起步），还在快速迭代中。想深度参与的可以看CONTRIBUTING.md，贡献代码或者算力都很欢迎。

为什么这个项目值得关注？

因为它真正把AI的“使用权”还给了个人和团队。隐私不用说，成本大幅下降，更重要的是——闲置算力被唤醒了。以前大家买了显卡就闲着，现在可以组队、可以协作、可以真正把AI跑在自己手里。

对开发者、研究者、甚至想自建AI产品的朋友来说，Parallax打开了一扇新门：不再被云端锁住，不再被硬件卡住。

Parallax 与 Exo 对比：优缺点一目了然

两者都是开源的分布式 LLM 推理项目，核心目标一样——把家里的笔记本、Mac、闲置 GPU 拼成一个 AI 集群，跑超大模型不用再租云。但实现路径和侧重点不同。

Parallax 相比 Exo 的优势（更适合异构、跨网、混合硬件场景）

1.平台支持全面得多

Parallax 原生支持 Windows + Linux + macOS，NVIDIA GPU 用成熟的 SGLang/vLLM（连续批处理、CUDA Graphs 很强），苹果硅用 MLX-LM。异构设备随便混搭（笔记本 + 台式机 + 服务器）。

Exo 目前主力还是 Apple Silicon（M3/M4 Ultra），Linux 只有 CPU 模式（GPU 支持还在开发），Windows 还没上线。想用 NVIDIA 显卡或 Windows 机器的，Parallax 直接可用，Exo 就得等。

2.WAN（跨公网）能力强，真正“全球集群”

Parallax 有 Global Host 模式，用 Lattica P2P + DHT 发现，能在不同城市、没有公网 IP 的机器间协作，NAT 穿越自然。

Exo 虽然也是 P2P（LibP2P），但实际更适合局域网，尤其是 Thunderbolt 直连的 Mac。跨网延迟和稳定性，Parallax 官方测试里明显占优。

3.性能基准领先（官方直测）

LAN 环境下，对 Llama-3.1（2048 输入 / 128 输出），Parallax TTFT 比 Exo 快 1.97 倍。

异构 14 节点 WAN 测试（Qwen3-32B FP8），端到端吞吐 495 tok/s，p99 延迟很稳。调度开销极低（256 节点也只要 <10ms 重分配）。

Exo 在同构 Mac + Thunderbolt RDMA 下延迟极低（能降 99%），但一旦离开纯 Mac 局域网，综合吞吐和尾延迟就不如 Parallax 优化得好。

4.调度和架构更“生产级”

Parallax 用网络感知动态规划（water-filling + DAG 路由）做 pipeline parallel 分片，自动平衡浅层流水线、复制副本、异构算力。支持 KV Cache 分页、请求动态路由、自愈能力强，还强调 traceability（可追溯执行）。官方定位是“Sovereign AI OS”，适合团队或长期跑服务。

Exo 强在 tensor parallelism + 拓扑感知，适合 Mac 集群快速分片，但对混合硬件和复杂网络的适应性稍弱。

5.模型和生态覆盖广

Parallax 官方支持 40+ 模型（含万亿参数 MoE、各种量化），后端灵活。Exo 也支持大模型（671B DeepSeek、235B Qwen），但主要靠 mlx-community 量化版，最近加了多模态。

Parallax 相比 Exo 的劣势（Exo 更香的场景）

1.纯 Mac 局域网 + Thunderbolt 用户，Exo 体验更极致

Exo 的 RDMA over Thunderbolt 5 能把设备间通信延迟砍到极低，同构 Mac Studio 四机跑 671B 模型速度飞起，还有内置 Dashboard，一键聊天、集群监控，开箱即用感强。

Parallax 在纯 Mac 环境下虽然也快，但没专门针对 Thunderbolt 做极致优化，RDMA 这块 Exo 目前更胜一筹。

2.上手门槛和生态

Exo 自动发现设备、Web Dashboard、OpenAI/Claude/Ollama 全兼容，Mac 用户装个 .dmg 就能跑。

Parallax 虽然 Quick Start 也友好，但 P2P 配置、Lattica 网络、异构调度这些概念多一点，新手可能需要多看几分钟文档。Exo 项目更早，社区反馈和 Mac 用户案例也更多。

3.硬件专精 vs 通用

如果你全是 Mac、追求最低延迟的消费级集群，Exo 的 tensor parallel + RDMA 更对味。Parallax 优势在“什么硬件都能用、跨网也能跑”，但在极端同构 Mac 场景下，Exo 的单点优化更突出。

总结一句话：

●选 Parallax：你有混合硬件（Win/Linux + NVIDIA + Mac）、想跨局域网甚至公网组集群、需要更稳的调度和生产级特性。

●选 Exo：你主要是 Mac 用户、局域网 Thunderbolt 直连、想要最简单上手和极致低延迟。

两个项目都在快速迭代，Parallax 更偏“主权 AI 基础设施”，Exo 更偏“家用 Mac 集群玩具到实用”。实际用哪个，取决于你的设备构成和网络环境。

—— 如此才是

把复杂的技术，讲成你真正能用上的生产力

零基础养🦞一键小说变短剧AI驱动的爬虫每天自动收到AI股票分析AI虚拟团队在办公室Agent操作系统Agent客户端ClawXAI快速游戏开发 AionUi：开源免费的多代理AI桌面协作工具 openakita 🔥ClawDeckX可视化管理OpenClaw🔥 Ghost-OS真人化“点鼠标”开源神器 Network-AI：让 OpenClaw 多agent彻底告别竞态、超支和混乱，5 分钟变生产级协调层！GitHub爆款开源神器！388个OpenClaw技能一键装机，你的AI代理直接变身全能打工人 3分钟生成完整带词歌曲！ACE-Step-1.5开源免费，把AI音乐创作塞进本地电脑 32.4k星的Shopify替代品到底长什么样，开源电商最强灵活框架medusa 开源神器 Network-AI：让 OpenClaw 多agent彻底告别竞态、超支和混乱，5 分钟变生产级协调层！全网扫描神器：开源工具last30days-skill ，让你瞬间掌握任何话题的最新真实动态