乐于分享
好东西不私藏

扔份PDF进去,直接变出一个自带老师和同学的沉浸式课堂!清华开源多智能体神器OpenMAIC,联动爆火“小龙虾”OpenClaw绝了

扔份PDF进去,直接变出一个自带老师和同学的沉浸式课堂!清华开源多智能体神器OpenMAIC,联动爆火“小龙虾”OpenClaw绝了

请在微信客户端打开

推荐阅读:

高斯溅射移动端落地:手机跑 3DGS 不卡了?4.6MB 模型干到 127 帧,Mobile-GS 直接封神!

仅0.9B参数!智谱联合清华开源GLM-OCR:退回“两阶段”反杀端到端,吞吐提速50%成RAG文档解析天花板

实时渲染3D空间,InSpatio-WorldFM开源!一个“能玩”的“实时帧”世界模型,4090单卡7FPS

小红书又双叒叕出手!工业级“四合一”语音系统 FireRedASR2S 炸场,100多种语言和20多种方言+唱歌都能精准拿捏!

真正的情感自由!开源 TTS 卷出新高度:Fish Audio S2 炸场,像写剧本一样“导演”情绪,100ms极速开嗓!

从OpenClaw的野蛮生长到Agent接管一切:港大开源CLI-Anything,让全网软件一夜变身“原生工具”!

颠覆视觉大模型底层逻辑!腾讯开源“端侧小钢炮” Penguin-VL:抛弃 CLIP,让纯文本大模型直接看懂世界!

SoulX-FlashHead 开源:单张 4090 跑出 96FPS,1.3B 参数实现无限流高保真数字人,comfyui已支持

北大字节联合开源 Helios:14B 参数19.5FPS 实时生成长视频 + 分钟级零漂,迎来原生架构革命

微软 Phi-4 多模态开源了:用 2000 亿 Tokens,做出 Pareto 最优的 15B 推理模型,按需思考,将推理成本砍到脚脖子

小红书开源新王炸FireRed-OCR ,2B 小模型登顶 SOTA,告别 Markdown 表格散架,表格公式再也不崩了

基于 OpenClaw 的移动端重构:ClawMobile 来了,跨 App 复杂任务 100% 搞定,让手机 Agent 彻底本地跑起来

CVPR2026开源的 3D 重建神器,手机拍的照片就能用。Adobe开源新作 tttLRM:打破 Transformer 瓶颈,线性复杂度实现大场景 3D 重建

端侧 AI 的王炸!Mobile-O 正式开源:不卷云端大参数,1.6B 实现理解生成一体化,手机 3 秒出图

浙大开源Fuse3D!多图生 3D,20 秒出精准模型:多图融合 + 自动对齐,把 “局部编辑” 做到极致

42k小时数据+零样本!SoulX-Singer开源:中英粤三语自由切换,歌词随意改,音色随便换,AI歌声合成’准’到离谱”

9B小钢炮!面壁MiniCPM-o 4.5焕新升级:能在Mac跑的全模态AI,边看视频边聊天,还能克隆声音

能“主动记忆”“自我复盘”的智能体:MemSkill 框架开源,以“自主进化”提升 AI 长任务表现

支持52种语言+92毫秒延迟(0.6b)+方言、歌声、噪音全搞定!阿里开源Qwen3-ASR,方言语音识别精度飙升

资源导航:

论文链接:https://jcst.ict.ac.cn/en/article/doi/10.1007/s11390-025-6000-0

项目主页:https://open.maic.chat/

GitHub Repo:https://github.com/THU-MAIC/OpenMAIC

Hugging Face:项目暂未提供独立权重库(基于主流大语言模型API调用)

发布机构:清华大学教育学院与计算机系联合团队

发布日期:2026年3月16日

开源协议:GNU Affero General Public License v3.0 (AGPL-3.0)

最近科技圈和开发者社区真的被各种多智能体(Multi-Agent)项目刷屏了。尤其是在前段时间,那个以一只红色小龙虾为标志的“OpenClaw”横空出世,把本地电脑自动化操作卷到了一个新高度。大家都在疯狂“养龙虾”,让它帮忙回邮件、跑数据、盯竞品。

就在大家以为这只龙虾主要用来干打工人的活儿时,今天,清华大学团队又抛出了一个重磅炸弹:OpenMAIC(Open Multi-Agent Interactive Classroom)刚刚正式开源,并且直接打通了 OpenClaw 生态,搞出了一只“教学版龙虾”。

简单用大白话概括一下这个项目:你给它丢一个主题或者一份复杂的PDF文档,它能在几分钟内,全自动给你生成一个沉浸式的“多智能体互动课堂”。 里面有AI老师给你放PPT、画白板、语音讲解,还有好几个拥有不同人设的AI同学在下面举手提问、互相抛梗、甚至展开圆桌辩论。更离谱的是,你可以随时开麦打断他们,加入讨论。

这是那种,既有前沿教育理论支撑(背后有一篇发在 JCST 上的长篇硬核论文),Infra 架构又极其考究的开源项目。今天我们就来看看它到底是怎么运转的,代码库里藏了什么玄机,以及在实际部署和使用中,它到底好不好用、有哪些坑。

时代的眼泪:从 MOOC 到 MAIC,大模型时代的在线教育怎么玩?

在深入技术细节之前,咱们得先聊聊大环境。这有助于我们理解 OpenMAIC 为什么会被造出来。

大家应该都记得十多年前那场轰轰烈烈的 MOOC(大型开放式网络课程)运动。Coursera、edX 横空出世,大家都觉得教育要被彻底颠覆了,普通人也能免费上哈佛、清华的课。但现实很骨感,MOOC 最大的痛点就是——完课率极其惨淡,大多数平台连 10% 都不到。 为什么?因为它是“定速巡航”式的单向输出。你看着看着就困了,遇到不懂的地方,视频里的老师也不会停下来解答你的疑惑。

后来,大语言模型(LLM)爆发了。大家开始用 ChatGPT、Claude 学习。遇到不懂的概念,直接扔给 AI。这确实解决了“答疑”的问题,但纯文本的 Chat 界面又带来了新问题:缺乏教学法(Pedagogy)的结构和沉浸感。 聊天窗口里没有板书,没有循序渐进的课程大纲,更没有那种课堂上同学之间互相讨论的氛围。学习变成了一场无聊的“你问我答”的文本接龙。

前段时间,Google 的 NotebookLM 爆火,它的 Audio Overview(播客生成)功能惊艳了所有人。丢一份 PDF 进去,一男一女两个 AI 主持人就能像说相声一样把复杂的论文讲得清清楚楚。但听播客依然是单向接收,你没法打断他们,也没法看着图表进行视觉化的学习。

而清华团队开源的 OpenMAIC,核心野心就是要把这一切缝合起来,并且推向下一个阶段。MAIC 代表的是 Massive AI-empowered Course。它的底层逻辑是:用大模型的能力,实时渲染出一个包含多模态展示(PPT/白板)、多角色互动(老师/学生)、多场景融合(测验/实验)的动态在线课堂。

这就像是给在线教育装上了 L4 级别的自动驾驶,课堂的进度、深浅、讨论的方向,都是根据你这个“真人学生”的实时反馈动态生成的。

核心玩法:这只“教学龙虾”到底能干嘛?

我们在实际测试 OpenMAIC 时,最直观的感受是它的场景丰富度远远超出了一个“对话机器人”的范畴。项目代码库里预设了四大核心教学场景,分别对应不同的学习认知深度。

1. 动态幻灯片与白板讲解(Slides)

你以前用 AI 生成 PPT,它只是给你一堆静态的文件。但在 OpenMAIC 里,PPT 是“活”的。AI 老师会在屏幕上展示一页幻灯片,同时使用底层的语音合成(TTS)进行绘声绘色的讲解。

更绝的是它的动作引擎(Action Engine)。AI 老师在讲解时,屏幕上会出现一个红色的虚拟激光笔,指着当前讲到的重点概念;或者当解释复杂公式时,AI 老师会直接调出白板,用 SVG 实时绘制流程图或者推导公式。这感觉就像真的有人在对面给你上课。

已关注

关注

重播 分享

2. 交互式测验反馈(Quiz)

上课光听不练是没用的。系统会在讲解告一段落时,自动切入 Quiz 场景。这里不是死板的单选题,而是支持单选、多选甚至简答题的交互组件。当你提交答案后,AI 会根据你的回答进行实时判分。如果你选错了,AI 老师不会冷冰冰地甩个正确答案,而是会引导你思考:“你注意到了某某细节吗?再想想它和之前的公式有什么联系?”

已关注

关注

重播 分享

3. 可视化交互模拟(Interactive)

对于理工科或者需要直观理解的内容,单纯的文字和图表是不够的。OpenMAIC 支持基于 HTML 的交互实验模块。比如在讲解物理运动、或者某些算法的数据流转时,AI 会在左侧生成一个可以互动的模拟器(物理引擎、流程图等),让用户自己拖拽变量,观察结果。这种从“听”到“动手做”的跨越,是传统网课根本无法做到的。

已关注

关注

重播 分享

4. 项目制协作学习(PBL – Project-Based Learning)

这可能是整个系统里最硬核的教学设计。对于复杂的知识,OpenMAIC 会引导你进入 PBL 模式。你可以选择扮演一个角色(比如开发工程师、产品经理),然后与 AI 智能体协作,按照里程碑一步步推进一个具体项目。系统会自动管理项目进度、生成交付物清单,并让不同的 Agent 对你的产出进行评审和指导。

已关注

关注

重播 分享

除了这些固定场景,贯穿始终的是多智能体互动(Multi-Agent Interaction)。在讲解过程中,AI 同学(比如一个叫“阿强”的学渣人设,和一个叫“木木”的学霸人设)会突然举手打断老师,提出一些看似刁钻但其实代表了普遍学习误区的问题。这时候,课堂就会进入圆桌辩论模式,你也会被 Cue 到发表看法。这种拉扯感极大地缓解了线上学习的孤独感。

已关注

关注

重播 分享

神仙联动:OpenClaw 生态的打通

如果 OpenMAIC 只是一个需要你克隆代码、装依赖、配环境变量才能跑起来的项目,那它的受众其实非常有限。但这帮清华的开发者非常聪明,他们借着最近爆火的 OpenClaw 东风,直接做了一个集成插件。

什么是 OpenClaw?简单来说,它是一个连接你日常沟通软件(比如飞书、Slack、Telegram)的个人 AI 助手,能够在你的授权下自动化执行各种本地或云端任务。

OpenMAIC 将自己封装成了一个 ClawHub 上的 Skill。这意味着什么呢?你甚至不需要碰任何一行终端命令行,只需要在飞书里艾特你的龙虾助手,对它说:“我想学一下 DeepSeek 的最新论文,帮我弄个课堂。”

接下来,OpenClaw 会自动执行一系列 SOP(标准作业程序):

  • • 自动去 GitHub Clone OpenMAIC 的代码库。
  • • 自动检测环境并执行 pnpm install
  • • 引导你填入大模型的 API Key,自动配置 .env.local 文件。
  • • 启动服务,并将你的需求(比如解析 DeepSeek 论文)打包发送给生成接口。
  • • 异步轮询生成进度,生成完毕后,直接在飞书里把课堂入口链接甩给你。

    已关注

    关注

    重播 分享

每执行一步关键的修改系统或占用端口的操作,龙虾助手都会在聊天框里弹出一个确认卡片,绝对不搞黑盒执行。这种“把 AI 教学系统当成一种可以通过另一个 AI 自动部署和调用的服务”的套娃设计,大大降低了普通文科生或非技术人员的使用门槛。

硬核技术架构拆解:扒一扒源码库

作为技术人,我们最关心的还是它底层怎么跑的。翻开 THU-MAIC/OpenMAIC 的源码库,扑面而来的是一股浓浓的现代前端和后端工程化气息。

技术栈选型非常“潮”:Next.js 16 (App Router) + React 19 + TypeScript 5 + LangGraph 1.1 + Tailwind CSS 4。

整个项目的核心业务逻辑主要集中在 lib/ 和 app/api/ 目录下,可以说是把大模型应用开发(LLM App Dev)的复杂性展现得淋漓尽致。

1. 两阶段生成流水线(The Generation Pipeline)

当你在网页端输入一个主题(比如“如何上手阿瓦隆桌游”),背后到底发生了什么?

在 lib/generation/ 目录中,代码实现了一个经典的两阶段生成流水线(Two-stage Pipeline):

  • • 第一阶段:大纲生成(Outline Generation)

大模型首先扮演“课程设计师”的角色,分析你输入的主题或长篇 PDF 资料,生成一份结构化的 JSON 教学大纲。这个大纲定义了课程分为几个章节,每个章节采用哪种场景(比如开场用 Slides,巩固用 Quiz,实践用 PBL)。

  • • 第二阶段:场景内容并发生成(Scene Generation)

拿到大纲后,系统会并发地调用大模型,填充每个章节的具体内容。这里面包含了老师的讲稿(台词)、幻灯片上要展示的文本和图片描述、白板上要绘制的 SVG 代码等。为了加快生成速度,各个不依赖上下文的场景会同时请求 API。

已关注

关注

重播 分享

(这是让系统教你玩阿瓦隆桌游的实测画面,逻辑极其清晰。)

在这里不得不提一个硬核的集成点:MinerU。如果你上传的是极度复杂的学术 PDF(里面满是双栏排版、复杂的数学公式和跨页表格),传统的开源 PDF 解析器基本都要翻车。OpenMAIC 提供了一个可选项,在 .env.local 中配置 MinerU 的服务端接口。MinerU 强大的 OCR 和版面分析能力,能把原本像乱码一样的 PDF 精准还原成结构化 Markdown,再喂给大模型做大纲生成,这极大提升了理工科类文档的生成质量。

2. LangGraph 驱动的导演图(Multi-Agent Orchestration)

生成完剧本,就该“演”出来了。这时候多智能体编排(Orchestration)系统登场。

在 lib/orchestration/ 下,团队使用 LangGraph 构建了一个基于状态机(State Machine)的“导演引擎”。如果你了解 LangGraph 就会知道,它非常适合处理这种包含循环、条件分支和多角色回合制的复杂流程。

系统里定义了一个“导演 Agent”,它控制着麦克风的使用权。当前该老师讲课时,状态流转到 Teacher 节点;讲到某个有争议的知识点,导演图根据预设的触发概率,让状态流转到 Student 节点,于是某个具有特定 System Prompt 的 AI 同学就会发言。如果你作为人类用户点击了“举手提问”,系统会立即中断当前的讲解流,把用户的语音转录后作为高优先级的事件插入 LangGraph 的消息队列中,触发全员针对你问题的解答轮次。

3. 神奇的 Action Engine 与回放同步(Playback & Sync)

怎么保证语音(TTS)播报的同时,幻灯片刚好翻页,或者激光笔刚好指到对应的词上?这曾经是很多 AI 视频生成的痛点。

OpenMAIC 的解法是在 lib/action/ 和 lib/playback/ 中设计了一套极其复杂的事件流。大模型在生成台词的同时,会在 JSON 结构中嵌入 Action Tag。比如:

"dialogue": "正如我们在图中看到的 ,这部分数据呈现指数级增长..." 前端的回放引擎(Playback State Machine)会实时解析这些包含时间戳和持续时间的 Action 对象,然后在对应的时刻驱动基于 Canvas 或 DOM 的组件进行动画渲染。这套引擎目前支持超过 28 种不同的动作类型(包含语音控制、白板绘图、形状生成、激光笔、聚光灯等),可以说是把 Web 端的多媒体操控玩出了花。

已关注

关注

重播 分享

(实测让它教“零基础文科生 30 分钟学会 Python”,动作引擎在讲解代码逻辑时的各种高亮和白板辅助,简直是降维打击。)

横向对比:它和市面上的竞品有什么区别?

要客观评价 OpenMAIC,我们必须把它放到当前的行业生态里,和同类工具真刀真枪地比一比。

1. VS 传统 MOOC(如 Coursera, 慕课网) 毫无疑问,MOOC 的优势在于真人名师的权威性和经过严格审核的视频质量。但 MOOC 是静态的。OpenMAIC 是动态的。如果你在一个 MOOC 视频里遇到一个听不懂的术语,你只能去评论区留言,通常几天后才会有人理你。但在 OpenMAIC 里,你直接打断 AI 老师说:“等等,我不懂这个词的意思,你能不能用吃火锅的例子给我打个比方?”整个课堂会立刻为了你一个人重新渲染解释路径。

2. VS Google NotebookLM(Audio Overview) NotebookLM 最近可以说是风靡全球,丢论文生成播客的功能成了科研狗和媒体人的最爱。但 NotebookLM 侧重于“通勤场景”的被动聆听。它没有白板,没有 PPT,更没有 Quiz 让你做。NotebookLM 像是一个极度优秀的收音机脱口秀,而 OpenMAIC 则是把你按在座位上认真上的一堂硬核研讨课。

3. VS 萨尔曼·可汗的 Khanmigo (可汗学院 AI 导师) Khanmigo 是非常有名的 AI Tutoring 系统,采用了苏格拉底式的提问法引导学生思考。Khanmigo 主要是“1对1”的文本对话辅助。而 OpenMAIC 主打的是“多智能体互动空间”。千万不要小看 AI 同学的存在,教育心理学表明,同伴学习(Peer Learning)能极大降低学习者的心理防线。当 AI 同学问出一个极度愚蠢的问题被老师纠正时,你会感到一种莫名的安全感,学习的焦虑感会大幅降低。

4. VS 纯大模型对话(如直接使用 ChatGPT, DeepSeek-V3) 直接用通用大模型学习当然可以,但普通人往往不会写结构化的 Prompt。你丢给 DeepSeek 一篇论文,它给你总结出 5 点。看完了,然后呢?没了。OpenMAIC 通过工程化的外壳,强制大模型输出结构化的教学流程,降低了用户的 Prompt 门槛。

已关注

关注

重播 分享

(这不,可以直接丢 DeepSeek 的最新论文进去,让 OpenMAIC 的几个 AI 帮你把里面晦涩的架构图一步步拆解出来。)

本地部署与小白避坑指南

对于想自己把玩或者基于这套框架做二次开发的极客们,OpenMAIC 的部署支持非常全面,而且良心地提供了开源的全量代码。

它的硬件和配置需求其实并不在于本地算力(因为它调的是云端 API),而在于你得有稳定可用的网络以及各大厂商的 API Key。

1. 最快上手:Vercel 一键部署 如果你不想折腾服务器环境,项目主页提供了一个 Vercel 的部署按钮。点击进去,绑定你的 GitHub,然后它会要求你填入至少一个 LLM 服务商的 API Key(比如 OPENAI_API_KEYANTHROPIC_API_KEY 或者 GOOGLE_API_KEY)。部署大约几分钟就能搞定。

2. 极客最爱:Docker 部署 如果你有一台云服务器,克隆代码后,把 .env.example 复制一份重命名为 .env.local。 填好 API Key 后,直接一句命令:

docker compose up --build

系统会自动拉取镜像并跑在 3000 端口。

3. 本地开发环境(Node.js + pnpm) 需要注意,项目强制要求 Node.js >= 18 并且使用了较新的包管理器 pnpm >= 10

git clone https://github.com/THU-MAIC/OpenMAIC.gitcd OpenMAICpnpm installpnpm dev

如果你在 Windows 下运行遇到路径或者构建错误,建议使用 WSL2 环境,这类重前端的项目在 Linux 生态下总是更丝滑。

⚠️ 关于模型的避坑建议: 官方 README 里有一句话极其关键:强烈推荐使用 Gemini 3 Flash。 我们在实测中也发现,因为要并发生成大量的 JSON 结构(包括长文本讲稿和各种 Action 指令),模型输出的稳定性和速度极其重要。如果你用速度太慢的模型(比如哪怕是推理极强的 Claude 3.5 Sonnet 或某些国内套壳模型),生成一堂包含 5 个场景的课可能需要等待超过 3 分钟,非常消耗耐心。而 Gemini 3 Flash 在这种“长上下文结构化输出”上的速度极具优势,达到了成本与体验的完美平衡。 如果你坚持要求最高的知识严谨度,可以切换到 Gemini 3.1 Pro,但这就要忍受较长的生成时间了。

如果你想强制修改默认模型,记得在 .env.local 里加上:

DEFAULT_MODEL=google:gemini-3-flash-preview

已关注

关注

重播 分享

(用它来分析智谱和 MiniMax 的股价趋势这种即时性要求高的任务,响应速度至关重要。)

现实痛点拷问:这套系统离完美还有多远?

任何项目都有其局限性,在仔细体验并剖析了 OpenMAIC 之后,我们认为它目前的短板也非常明显,甚至有些是整个大模型行业现阶段都难以完美解决的通病。我们实事求是地列出这些问题,供大家参考。

痛点 1:烧钱的 API 账单

别看软件开源免费,但因为整个场景高度依赖 LLM 的并发调用和大量的上下文。比如你上传了一份 20 页的 PDF 研报,大模型不仅要读取它生成大纲,之后每个场景生成时,这段巨大的 Prompt 都在被反复当作上下文喂给模型。 更要命的是,如果要体验顺畅的语音讲解,你需要接入优质的 TTS(文本转语音)API(比如 OpenAI 的 TTS 或 ElevenLabs)。算上多智能体实时讨论时不断消耗的输入输出 Token 和语音合成费,如果你用它连续学习几个小时,这背后的 API 账单绝对会让普通人心疼。这也是为什么强烈推荐走高性价比模型(如 Gemini Flash 或 DeepSeek-V3 API)的原因。

2. 生成等待时的“空窗期焦虑”

虽然用了并发生成,但面对复杂主题,从你点击“生成课堂”到进入第一页 PPT,中间依然有几十秒甚至几分钟的等待时间。在这个“即时反馈”的短视频时代,几十秒的黑屏 Loading 足以让相当一部分用户流失。虽然有进度条安抚,但如何把流水线优化成“边生成边播放(Streaming Rendering)”,将是该项目未来要攻克的大难关。

3. 动作引擎的空间坐标“幻觉”

前面夸了白板功能很惊艳,但痛点也在白板上。目前大语言模型在处理 2D 空间坐标系时,依然存在天然的缺陷。当 AI 老师试图在白板上画一个流程图时,它生成的 SVG 代码里的 x, y 坐标往往是模型“估算”出来的。这就导致偶尔会出现文字重叠在一起、矩形框没有包住文字、或者箭头指偏了的尴尬画面。这种空间视觉对齐的“幻觉”,现阶段单纯靠 LLM 很难百分百解决,可能未来需要接入多模态原生视觉模型去校准画布。

4. 实时交互中的语音延迟

当你开麦打断 AI 老师讲话时,系统需要经历:你的语音上传 -> ASR (语音转文字) -> 送入 LangGraph 状态机 -> 触发几个 Agent 生成回复 -> TTS 转成语音 -> 流式下发给前端。 这个完整的链路下来,即使你用的是全套最顶级的模型,中间那几秒的停顿依然是无法消除的。相比于人与人之间面对面交流那种毫秒级的抢话体验,多智能体的实时沟通还是会有一定的“对讲机感”。

结语与展望

瑕不掩瑜,把 OpenMAIC 放在 2026 年初的开源时间节点上来看,它绝对是一部极具启发性的作品。

它最大的贡献在于打破了大家对大模型教育应用的刻板印象——教育不仅是知识的传递(信息压缩),更是环境的构建(认知脚手架)。

清华团队通过一套精密的工程实现,证明了用代码和 Prompt 完全可以编排出一个具备高互动性的拟真学习空间。而且更聪明的是,他们没有选择把系统做成一个封闭的花园,而是将其开源,并巧妙地接入了 OpenClaw 这样正在起飞的自动化生态节点。这让 OpenMAIC 拥有了无限延伸的可能,未来甚至可能演变成一种插件化的“基础设施”,任何包含复杂信息的系统(如企业内训软件、产品说明书网站)都可以随时召唤出一个微型 MAIC 课堂,把用户教懂。

技术的齿轮还在狂奔,随着推理模型的降本增效以及原生多模态实时交互(如类似 GPT-4o 的原生 Voice-to-Voice 接口)在社区开源落地,上面提到的延迟和成本痛点都会在不远的将来迎刃而解。

如果你是一名关注 AI 赋能教育的开发者、一名想要提升学习效率的极客,或者干脆就是个想体验最新多智能体架构的好奇宝宝,非常建议去给这个项目点个 Star,然后按着教程亲自部署体验一番。

毕竟,拥有一个只为你一个人服务、随叫随到、并且永不疲倦的智囊团课堂,听起来真的很酷,不是吗?

请在微信客户端打开

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 扔份PDF进去,直接变出一个自带老师和同学的沉浸式课堂!清华开源多智能体神器OpenMAIC,联动爆火“小龙虾”OpenClaw绝了

猜你喜欢

  • 暂无文章