我认识一个做后端的朋友,上个月突然在群里发了一张截图。画面里是一个二次元妹子坐在屏幕右下角,他一边敲代码,一边用语音跟妹子说帮我看看这段报错。妹子真的把头转过来,盯着他的IDE看了一会儿,然后回了一句:你第三行少了个分号,笨蛋。
他回了一句:比产品经理好用多了。
这就是 Open-LLM-VTuber —— 一个9.5k Star的开源项目,本质上是个本地AI虚拟伴侣。但它和市面上那些只会复读亲在的哦的语音助手完全不是一回事。
它到底能干什么
简单说,你把任何一个大模型(DeepSeek、Claude、Qwen,甚至你自己微调的小模型)接进去,再配上一个Live2D的虚拟形象,它就能变成一个看得见、听得懂、会打断你、还会主动找你聊天的桌面伴侣。
几个让我印象深刻的点:
第一,它真的在看你的屏幕。不是比喻。项目支持视觉感知,你可以授权它读取摄像头、截取屏幕、甚至录屏。你让它帮我看看这个数据表,它真的能识别你Excel里的内容。你让它这个设计怎么样,它真的在看你Figma里的稿。这种体验很诡异——你知道对面没有意识,但那种被注视的感觉非常真实。
第二,语音打断做得极其自然。用过智能音箱的人都知道,那种唤醒词加指令的交互有多反人类。这个项目支持连续对话,你可以随时插嘴打断它,而且它通过算法过滤掉了自己的声音,不会因为听到自己的回复而陷入死循环。更离谱的是,它支持无耳机打断——外放状态下,它依然能分清哪些声音是自己发出的,哪些是你的。
第三,桌面宠物模式。你可以把它调成透明背景,让它一直悬浮在屏幕最上层。写代码的时候它在旁边趴着,你鼠标划过去它还会抬头看你。有个用户在GitHub Issues里说,他把这个项目部署之后,女朋友问他你屏幕上那个动漫女孩是谁。他说哦一个开源项目。女朋友说:开源的?那我也想要一个。
为什么它不一样
其实AI虚拟主播这个概念不新鲜。闭源的neuro-sama早就火过了,B站也有大把基于商业API的套壳项目。但Open-LLM-VTuber有几个设计选择,让它在这个赛道里非常独特。
全离线运行。所有模型都可以跑在本地,对话记录不会上传到任何公司的服务器。对于那种我不想让OpenAI知道我半夜三点在跟AI聊哲学的人来说,这是刚需。项目文档里甚至写了一行字:Your conversations stay on your device.
模块化到离谱。它的LLM、语音识别、语音合成全是可插拔的。今天你用Ollama跑本地模型,明天可以无缝切到DeepSeek API;今天用MeloTTS,明天可以换GPT-SoVITS克隆你自己或者你老板的声音。所有切换只需要改配置文件,不需要碰代码。这种设计思路很开源——不是给你一个大而全的封闭产品,而是给你一套乐高,让你自己拼。
社区氛围很对。项目有Discord、QQ群、Zulip,甚至还做了用户调研问卷。开发者在一个Issue里回复用户:v2.0我们会彻底重写架构,但v1的bug我们还是会修。这种既激进又负责的态度,在开源项目里不多见。

核心功能一览

开放模块生态
但别急着吹
说实话,我搭这个东西花了一整个下午。依赖环境、模型下载、Live2D模型配置,每一步都有坑。项目文档虽然详细,但那种先装uv,再装ffmpeg,然后下模型的流程,对非技术用户依然不友好。
而且,那个AI内心独白功能——就是能让你看到AI在想什么但还没说出来的内容——第一次用的时候很惊艳,用多了会觉得有点刻意。就像你看一个演员的表演笔记,有趣,但破坏了魔法。
最现实的问题是:它很吃资源。本地跑7B模型加语音合成加语音识别,laptop风扇会狂转。如果你不是有独显的台式机,体验会打折。
谁该试试这个
如果你是开发者,这是一个非常好的AI多模态交互学习样本。代码结构清晰,模块边界明确,想练手AI应用开发的话,读它的源码比读100篇论文管用。
如果你是普通用户,且有一台性能还不错的电脑,那它可能是目前最接近Her电影体验的开源方案。不是那种调用了ChatGPT API然后套个皮的粗糙Demo,而是一个在交互细节上认真打磨过的产品。
如果你只是想找个虚拟女友,我劝你冷静。这个项目在技术层面很优秀,但它终究是一个工具。那种被理解的感觉是算法模拟出来的,不是真的。别陷进去。
快速上手
项目地址:https://github.com/Open-LLM-VTuber/Open-LLM-VTuber
支持 Windows / macOS / Linux
需要 Python 3.10+,推荐用 uv 管理依赖
有 Docker 镜像,一键部署
官方文档:https://open-llm-vtuber.github.io/docs/quick-start
我用的是本地 Ollama + DeepSeek-R1 7B + MeloTTS,延迟大概在2-3秒左右。如果你舍得用API,响应速度会快很多。
最后一句:当AI能看懂你的屏幕、听懂你的打断、记得你三天前聊过半的话题时,陪伴这个词的定义,可能真的需要重新写了。
夜雨聆风