对比 6 个手机本地跑 AI 大模型的 App,一键下载运行不用联网-夜雨聆风

对比 6 个手机本地跑 AI 大模型的 App,一键下载运行不用联网

和这些 App 聊天，内容全程留在自己手机里，不上传到任何公司的服务器。

最顺手的是 PocketPal AI，进去像逛商店一样挑模型。

本地运行 AI 模型的优势

•隐私保护：日记、合同、病历这类不想上传的内容，全程只在本机处理。•没网也能用：飞机上、地铁里、出差信号差，断网照样聊。•不花钱、不注册：没有订阅费，也不用手机号或邮箱登录。•不受限制：没有每天几条的额度，也不担心服务商涨价或封号。

下面这几个是目前主流、好用的端侧 App，按各维度列出方便横向比较。

PocketPal AI

体验上最接近手机版的 LM Studio。

•平台：安卓、iOS•模型获取：内置 Gallery 一键下载量化过的主流小模型，也能贴 Hugging Face 链接下别的•底座：基于 llama.cpp，优化了手机 CPU/GPU•亮点：界面像模型商店；部分模型可传图识图；上线一年多下载量超过 50 万，手机端用得最多•收费：免费

Google AI Edge Gallery

谷歌官方出品，主跑自家 Gemma。

•平台：安卓•模型获取：内置列表下载 Gemma 系列，模型文件约 1–3 GB•底座：Google AI Edge（LiteRT）•亮点：支持文字聊天和看图；下完完全离线•收费：免费

MLC Chat

走硬件加速路线，速度更快。

•平台：安卓、iOS•模型获取：内置编译好的热门模型，点一下就装•底座：MLC-LLM，通过 Vulkan、Metal 直接调手机显卡（GPU），而非只用 CPU 硬扛•亮点：同一台手机上，推理速度通常比纯 CPU 方案快；做机器学习编译的 MLC 团队出品•收费：免费开源

LLM Hub

开源新秀，还能本地生图。

•平台：安卓、iOS（GitHub Release / TestFlight）•模型获取：内置 15 个以上模型，全部在本机运行•底座：整合 MediaPipe、LiteRT 和基于 Nexa SDK 的 llama.cpp•亮点：原生界面（安卓 Material 3 / iOS SwiftUI）；除聊天外还能本地生成图片、做语音转文字•收费：免费开源

Private LLM

iOS 上的付费精品。

•平台：iOS（含 macOS）•模型获取：内置多个为 iPhone 优化的小模型，开箱即用•底座：llama.cpp 系•亮点：主打隐私；对发热和耗电做了针对性优化•收费：付费

Sherpa-onnx

顺带把语音也做了。

•平台：安卓、iOS•模型获取：开源，自行配置模型•底座：ONNX Runtime，下一代 Kaldi 团队出品•亮点：除跑 LLM 外，本地语音识别（ASR）和语音合成（TTS）做得很好，适合离线做语音转文字、文字转语音•收费：免费开源

嫌手机太烫，就把它当电脑的遥控器

觉得手机跑模型发烫、费电，可以在电脑上装 Ollama，手机只装个客户端去连它：模型在电脑上算，手机只显示聊天界面，不用在手机里下好几个 G 的模型。

iOS 上常用 Enchanted，填入电脑地址就能聊；

电脑装了 Open WebUI 的话，直接用手机浏览器打开网页、添加到主屏幕，体验和原生 App 差不多。

两个要先知道的坑

•内存是硬门槛：手机跑 3B、7B 级别的模型，可用内存最好有 8GB 甚至 12GB 以上，否则很容易闪退。•发热掉电快：本地推理会把 CPU/GPU 拉满，手机会明显发烫、电量掉得快，建议边充电边用，下载大文件也尽量连 WiFi。

注意：受手机内存和散热限制，能下到的多是压缩（量化）过的小模型，常见的有 Llama、Gemma、Phi、Qwen 几家的 2B 到 9B 版本。

参考资料

https://github.com/a-ghorbani/pocketpal-ai
https://github.com/google-ai-edge/gallery
https://github.com/mlc-ai/mlc-llm
https://github.com/timmyy123/LLM-Hub
https://apps.apple.com/us/app/private-llm-local-ai-chat/id6448106860
https://github.com/k2-fsa/sherpa-onnx
https://github.com/gluonfield/enchanted
https://github.com/open-webui/open-webui