GradientHQ/parallax。它不是又一个“玩具级”推理工具,而是一个真正能让你用家里的设备拼出一个AI集群的分布式推理引擎。简单说:以前大模型动不动就要租云上A100/H100,现在Parallax可以把你的MacBook、台式机、闲置GPU、甚至队友的机器串起来,像一台超级计算机一样跑DeepSeek、Llama、Qwen这些顶级模型。
感觉这东西直接把“主权AI”从概念变成了现实。
先说说痛点,大家都懂
现在大模型越做越大,单机显存根本不够,云端又贵、排队、数据还得送出去。想本地跑个70B+的模型?要么买一堆显卡,要么眼巴巴看着别人玩。Parallax直接把这个问题干掉了:模型分片(pipeline-parallel sharding)+ P2P调度,模型层自动切开,藏状态(KV Cache)分页管理,请求动态路由,不管设备在同一个局域网还是跨公网,都能协同工作。
把异构硬件变成一个“可追踪的统一服务”,笔记本、实验室GPU、队友工作站……全都可以贡献算力,请求走最快的路径,不需要公网IP,不需要硬件完全一样。
Parallax到底能干啥?
●本地托管LLM:支持40+开源模型,从0.6B到万亿参数MoE,覆盖DeepSeek系列、MiniMax、GLM、Kimi、Qwen、Llama 3全家桶等,还包括各种量化版本。
●跨平台:Windows、Linux、macOS全支持,GPU用SGLang/vLLM,苹果硅用MLX LM,Mac上也能连续批处理和Paged KV Cache。
●高性能调度:动态请求路由、连续批处理、pipeline并行,官方对比Petals,在双节点RTX 5090上跑Qwen2.5-72B,端到端延迟低3.1倍,输出吞吐更高。
●实际场景: coding copilot、私人助手、视觉/语音流水线、多智能体模拟……你想跑什么AI应用,都能自己搭集群,不用再看云厂商脸色。
Gradient把这玩意儿叫“主权AI操作系统”(Sovereign AI OS)。听起来有点大,但确实贴切——它不是单纯的推理框架,而是把分布式运行时、P2P通信(基于Lattica)、异构Worker全部打通,让普通人也能拥有“自己的AI基础设施”。
怎么玩?上手其实不难
项目已经开源在GitHub:GradientHQ/parallax
README里有详细的安装指南和Quick Start,文档也放在Gradient官网。基本流程就是:
1.按文档装好依赖(支持Docker也很友好)。
2.把几台机器加进同一个Parallax网络。
3.指定要跑的模型,Parallax自动做分片和调度。
目前已经支持OpenClaw集成。
作为早期开源项目(0.0.1版本起步),还在快速迭代中。想深度参与的可以看CONTRIBUTING.md,贡献代码或者算力都很欢迎。
为什么这个项目值得关注?
因为它真正把AI的“使用权”还给了个人和团队。隐私不用说,成本大幅下降,更重要的是——闲置算力被唤醒了。以前大家买了显卡就闲着,现在可以组队、可以协作、可以真正把AI跑在自己手里。
对开发者、研究者、甚至想自建AI产品的朋友来说,Parallax打开了一扇新门:不再被云端锁住,不再被硬件卡住。
Parallax 与 Exo 对比:优缺点一目了然
两者都是开源的分布式 LLM 推理项目,核心目标一样——把家里的笔记本、Mac、闲置 GPU 拼成一个 AI 集群,跑超大模型不用再租云。但实现路径和侧重点不同。
Parallax 相比 Exo 的优势(更适合异构、跨网、混合硬件场景)
1.平台支持全面得多
Parallax 原生支持 Windows + Linux + macOS,NVIDIA GPU 用成熟的 SGLang/vLLM(连续批处理、CUDA Graphs 很强),苹果硅用 MLX-LM。异构设备随便混搭(笔记本 + 台式机 + 服务器)。
Exo 目前主力还是 Apple Silicon(M3/M4 Ultra),Linux 只有 CPU 模式(GPU 支持还在开发),Windows 还没上线。想用 NVIDIA 显卡或 Windows 机器的,Parallax 直接可用,Exo 就得等。
2.WAN(跨公网)能力强,真正“全球集群”
Parallax 有 Global Host 模式,用 Lattica P2P + DHT 发现,能在不同城市、没有公网 IP 的机器间协作,NAT 穿越自然。
Exo 虽然也是 P2P(LibP2P),但实际更适合局域网,尤其是 Thunderbolt 直连的 Mac。跨网延迟和稳定性,Parallax 官方测试里明显占优。
3.性能基准领先(官方直测)
LAN 环境下,对 Llama-3.1(2048 输入 / 128 输出),Parallax TTFT 比 Exo 快 1.97 倍。
异构 14 节点 WAN 测试(Qwen3-32B FP8),端到端吞吐 495 tok/s,p99 延迟很稳。调度开销极低(256 节点也只要 <10ms 重分配)。
Exo 在同构 Mac + Thunderbolt RDMA 下延迟极低(能降 99%),但一旦离开纯 Mac 局域网,综合吞吐和尾延迟就不如 Parallax 优化得好。
4.调度和架构更“生产级”
Parallax 用网络感知动态规划(water-filling + DAG 路由)做 pipeline parallel 分片,自动平衡浅层流水线、复制副本、异构算力。支持 KV Cache 分页、请求动态路由、自愈能力强,还强调 traceability(可追溯执行)。官方定位是“Sovereign AI OS”,适合团队或长期跑服务。
Exo 强在 tensor parallelism + 拓扑感知,适合 Mac 集群快速分片,但对混合硬件和复杂网络的适应性稍弱。
5.模型和生态覆盖广
Parallax 官方支持 40+ 模型(含万亿参数 MoE、各种量化),后端灵活。Exo 也支持大模型(671B DeepSeek、235B Qwen),但主要靠 mlx-community 量化版,最近加了多模态。
Parallax 相比 Exo 的劣势(Exo 更香的场景)
1.纯 Mac 局域网 + Thunderbolt 用户,Exo 体验更极致
Exo 的 RDMA over Thunderbolt 5 能把设备间通信延迟砍到极低,同构 Mac Studio 四机跑 671B 模型速度飞起,还有内置 Dashboard,一键聊天、集群监控,开箱即用感强。
Parallax 在纯 Mac 环境下虽然也快,但没专门针对 Thunderbolt 做极致优化,RDMA 这块 Exo 目前更胜一筹。
2.上手门槛和生态
Exo 自动发现设备、Web Dashboard、OpenAI/Claude/Ollama 全兼容,Mac 用户装个 .dmg 就能跑。
Parallax 虽然 Quick Start 也友好,但 P2P 配置、Lattica 网络、异构调度这些概念多一点,新手可能需要多看几分钟文档。Exo 项目更早,社区反馈和 Mac 用户案例也更多。
3.硬件专精 vs 通用
如果你全是 Mac、追求最低延迟的消费级集群,Exo 的 tensor parallel + RDMA 更对味。Parallax 优势在“什么硬件都能用、跨网也能跑”,但在极端同构 Mac 场景下,Exo 的单点优化更突出。
总结一句话:
●选 Parallax:你有混合硬件(Win/Linux + NVIDIA + Mac)、想跨局域网甚至公网组集群、需要更稳的调度和生产级特性。
●选 Exo:你主要是 Mac 用户、局域网 Thunderbolt 直连、想要最简单上手和极致低延迟。
两个项目都在快速迭代,Parallax 更偏“主权 AI 基础设施”,Exo 更偏“家用 Mac 集群玩具到实用”。实际用哪个,取决于你的设备构成和网络环境。
—— 如此才是
把复杂的技术,讲成你真正能用上的生产力
零基础养🦞一键小说变短剧AI驱动的爬虫每天自动收到AI股票分析AI虚拟团队在办公室Agent操作系统Agent客户端ClawXAI快速游戏开发AionUi:开源免费的多代理AI桌面协作工具openakita 🔥ClawDeckX可视化管理OpenClaw🔥 Ghost-OS真人化“点鼠标”开源神器 Network-AI:让 OpenClaw 多agent彻底告别竞态、超支和混乱,5 分钟变生产级协调层!GitHub爆款开源神器!388个OpenClaw技能一键装机,你的AI代理直接变身全能打工人3分钟生成完整带词歌曲!ACE-Step-1.5开源免费,把AI音乐创作塞进本地电脑32.4k星的Shopify替代品到底长什么样,开源电商最强灵活框架medusa 开源神器 Network-AI:让 OpenClaw 多agent彻底告别竞态、超支和混乱,5 分钟变生产级协调层!全网扫描神器:开源工具last30days-skill ,让你瞬间掌握任何话题的最新真实动态
夜雨聆风