2026年5月AI生产力再探再报:不加速搬砖了,做AI短剧吧

前言

这个月AI圈又双叒叕卷出了新高度，模型一个比一个猛，工具一个比一个花，每个月的开头都不知道要怎么写了…

我把这个月值得关注的东西扒了个遍，有的让人直呼卧槽还能这样，有的让人怀疑是不是在凑KPI。话不多说，开整。

太长不看，可下滑浏览图文版

一、工具尝鲜快报

好玩的，初探感觉不错，但还未十分深入的工具。

模型篇

1. MiniMax M3

MiniMax终于从2.X系列卷到了M3。编程、智能体、原生多模态全都要，作为儿童节礼物，大朋友们也很喜欢了。说到原生多模态，D指导的识图模式都还没完全开放…加把劲啊！

2. Step 3.7 Flash

阶跃星辰出的新一代Flash模型，总参数196B，稀疏MoE架构下实际推理只激活11B，相当于一辆超跑平时只烧摩托车的油。400 TPS的推理速度、256K上下文、原生多模态，再加上搜索、工具调用、GUI感知、代码生成全套Agent Loop，这配置单读起来像是把今年所有热门关键词都塞进去了。Step系列虽然不常被提到，但实测体验确实不赖，属于高性价比的模型。

3. Qwen3.7-Max

阿里云发布的面向智能体时代的新一代旗舰模型，主打编程、办公自动化、长周期自主执行等能力，通过百炼API提供服务。Qwen系列一直更新得很勤快，3.7这个版本明显是在往Agent方向发力。阿里在B端落地方面一直有优势，这次看能不能把「长周期自主执行」这个老大难问题解决得漂亮一点。

4. Gemini Omni

Google发布的「任意输入、任意输出」多模态模型，整合了图像模型Nano Banana、视频生成模型Veo和世界模型Genie。支持视频编辑和物理模拟，听着像是把自家一堆模型打了个包……怎么说呢，Google落地总是慢半拍，希望这次不是又一个「发布即巅峰」。

5. Mistral Medium 3.5

欧洲的AI独苗，Mistral发布的128B稠密模型，统一了指令遵循、推理和编码能力，支持256K上下文窗口、多模态输入和多语言，SWE-Bench Verified达到77.6%。开源权重可商业使用，最少4块GPU就能部署。128B稠密模型还能保持这个性能，Mistral的压缩和优化功底确实深厚。

6. SenseNova U1

商汤开源的多模态模型，主打一个「连续图文生成输出」。用上了NEO-unify原生架构，把多模态理解和生成统一到了一起。简单说就是：你让它画画，它不仅能画，还能边画边跟你唠嗑，告诉你为什么这么画。虽然商汤在C端的存在感一直不太强，但技术底子确实是有的，这次开源也算大方了一回。

有空再写一篇本地部署的体验~

7. Uni-1.1 API

Luma AI发布的图像生成模型API，主打推理与生成一体化。广告、电商、角色一致性这些商用场景是它的高光区。Luma在3D和视频领域一直很能打，这次把图像生成的API也铺开了，对于需要在自有产品里集成图像生成能力的企业来说，多了一个靠谱的选择。

写 SenseNova U1 时再对比一下吧= v =

8. HiDream-O1-Image

8B参数的像素级统一生成基础模型，直接抛弃了传统VAE和分离式文本编码器，用Unified Transformer架构实现端到端上下文视觉生成。支持文本到图像、图像编辑、主体个性化等任务。参数不大但架构很激进，这种「重架构轻参数」的路线如果能走通，对降低图像生成成本意义重大。

9. VoxCPM2

面壁智能联合OpenBMB和清华推出的开源语音生成模型。三种模式各有绝活：声音设计模式能从零创造音色，可控克隆模式能保留原声并调整情绪语速，极致克隆模式能把参考音频的细节完整复刻。开源语音模型里能做到这个水准的确实不多，关键是它真的理解「语气」和「情绪」而不只是音量大小。

实测想保持音色的统一性和稳定性不容易，声音也需要抽卡= =

10. LongCat-Video-Avatar 1.5

数字人视频领域的新卷王，从开源SOTA直接杀向商业级应用。唇形同步、物理合理性、长视频稳定性、多人互动，它都能hold住。以前看数字人视频总觉得哪里怪怪的，像是恐怖谷里开派对，现在好了，进化到「能看」了。

11.Supertonic-3

端侧文本转语音系统，约99M参数，能在CPU上实时运行，支持31种语言和情感表达控制，还提供11个平台SDK。99M参数做到这个水准确实有点东西，关键是它真的能在普通CPU上跑起来，不需要你掏空钱包买显卡。对于需要离线TTS或者端侧语音交互的应用来说，这个简直是及时雨。

应用篇

1. DeepSeek-TUI

一个用Rust写的TUI编程工具，专为DeepSeek优化。支持读写文件、执行Shell、搜网页、管Git、调度子Agent、接MCP服务器，还自带思维链显示、上下文压缩和RLM模式。Rust+TUI的组合决定了它一定是极客味拉满的，据说是又快又稳。如果你还在用网页版DeepSeek，或是把API接入Cluade Code，也可以换换口味试试这个。

地址：

https://github.com/Hmbown/DeepSeek-TUI

2. RTK

Rust写的CLI代理工具，专门拦截并压缩命令输出，平均压缩率80-90%，支持超过100种命令的智能过滤。零依赖，开销低于10ms，还支持12种AI工具。简单说就是：你的终端输出不再是一坨坨翻不到头的日志了，RTK帮你把噪音过滤掉，只留下AI和你都需要的信息。命令行重度用户用了应该就回不去了。

地址：https://github.com/rtk-ai/rtk

3. Archon

AI编码工作流引擎，把开发流程编码成YAML工作流，支持确定性步骤和AI混合编排。内置17个默认工作流，还有Web UI拖拽编辑和远程触发。对于那些「每次做类似项目都要重新写一遍prompt」的重复劳动，Archon相当于给你搭了一套流水线。YAML这玩意儿配好了是真的香。

地址：

https://github.com/coleam00/Archon

4. codegraph

将整个代码库索引为代码知识图谱，让AI提前了解项目结构，支持Claude Code、Codex、Cursor等主流工具。大项目里最痛苦的就是AI睁眼瞎，明明文件就在隔壁，它非要瞎猜。codegraph相当于给AI配了张项目地图，告诉它「类A在这里，函数B调用了C」。接入成本不高，收益却很明显。

地址：

https://github.com/colbymchenry/codegraph

5. Understand-Anything

把代码库转换为可交互知识图谱，支持搜索、提问和可视化浏览。和codegraph有点像，但它更注重「可交互」和「可视化」这部分。你可以在图谱里点点戳戳，直接跳转到对应的代码位置。对于接手祖传代码或者需要快速熟悉新项目的人来说，这种图形化的方式比啃文档友好多了。

地址：

https://github.com/Lum1104/Understand-Anything

6. 12-factor-agents

把经典的12-factor应用原则搬到了AI Agent开发领域，覆盖工具调用、提示词管理、上下文控制和错误处理。与其说是一个工具，不如说是一套方法论。但对于正在搭建Agent系统的团队来说，这套经验确实能帮你避开很多「前人踩过的坑」，有份靠谱的最佳实践参考总是好的。

地址：

https://github.com/humanlayer/12-factor-agents

7. GenericAgent

一个极简的自进化Agent系统，核心代码只有约3000行，通过技能树和分层记忆架构实现Agent自进化，支持多种模型和机器人前端。3000行代码做到这个程度，属于「少即是多」的典范。对于那些不想被臃肿框架绑架、又想体验Agent自进化能力的开发者来说，这个项目值得深挖。

地址：

https://github.com/lsdefine/GenericAgent

8-9. PetShare & PetDex

两个Codex宠物社区网站，汇集用户生成的自定义宠物。严格来说这不算生产力工具，但当你被需求文档折磨到怀疑人生的时候，看到AI宠物在桌面活动的样子，心情会好很多。而且它们也侧面证明了Codex在创意生成上的可玩性，能把代码工具玩成电子宠物，这届开发者是懂劳逸结合的。

地址： https://codex-pet-share.pages.dev/ https://petdex.crafter.run/

二、生产力军火库

好用的，开箱即用的神器，或一些隐藏的技巧。

视频组

1. RHTV

画布型AI视频工具，主打「画布原生Agent」。你能把参考素材往画布上一丢，它自动拆解参考板、配置工作流、调度Seedance 2.0等模型生成视频。整个流程像是在玩一个高级版的拼图游戏，只不过拼出来的是视频。对于这种把复杂工作流藏在一个清爽界面背后的设计，我只想说：请多来一点。

最近也是开始尝试制作AI短剧，比写文案和vibe coding难好多啊！但是RHTV是真的让一切都更方便，想自己当导演快戳邀请链接 ↓↓↓ 和我一起获赠送额度~

地址：

https://www.runninghub.cn/?inviteCode=7pw0oyaa

之后分享入门心得，敬请关注！

2. OiiOii 一个靠7个AI Agent（编剧、分镜、角色设计、场景设计、艺术总监、动画师、音效工程师）组团干活的动画创作工具。你只需要丢一句话，它就能给你搓出1分钟以上的叙事动画。全自动、半自动、手动三种模式照顾到了从「懒到极致」到「控制狂」的各类用户。动画从业者看了可能心情复杂，但独立创作者应该已经在偷笑了。

地址：https://www.oiioii.ai/

3. ViMax

香港大学推出的AI视频制作Agent剧组，把视频创作拆分成了导演、编剧、制片、视频生成器等多个AI角色。支持Idea2Video、Script2Video和Novel2Video三种输入模式，意思是你丢个点子、丢个剧本、甚至丢本小说，它都能给你折腾成视频。「一人成团」的工具百花齐放，现在的独立创作者可以单枪匹马干翻以前的一个小工作室了。

地址：

https://github.com/HKUDS/ViMax

4. Vidu Claw

生数科技推出的AI视频生成工具，支持从创意理解、脚本策划到视频生成的全链路闭环。微信、飞书、钉钉扫码就能接入，采用包干制计费模式。比起按秒计费让人提心吊胆的方式，包干制确实更省心。

话说 Seedance2.0 已经统治AI视频好久了，真的无人能敌嘛！

地址：https://www.vidu.cn

设计组

1. Open Design

Nexu-io团队搞出来的开源设计生成器，号称输入一句话就能吐出一整套可交付的HTML页面、PPT或者移动端原型。内置19个可组合的Skill和71套品牌级Design System，连Apple、Stripe、Vercel这种大厂风格都给你备好了。感觉像是给设计师配了个不下班的实习生，虽然有时候审美还是会跑偏到甲方快乐风。

地址：

https://github.com/nexu-io/open-design

2. fireworks-tech-graph

用大白话描述就能生成SVG技术图，支持14种图表类型和7种视觉风格，还能导出高清PNG。画架构图大概是技术人员最讨厌的杂活之一，这个工具让你直接说人话就能出图。虽然生成的图不一定完美符合你的审美，但至少比从零开始在draw.io里拖拽要快得多。

地址：

https://github.com/yizhiyanhua-ai/fireworks-tech-graph

3. architecture-diagram-generator

生成独立HTML文件嵌入SVG架构图，深色主题设计，兼容Claude.ai和Claude Code。和fireworks-tech-graph有点像，但它输出的是独立HTML，更适合直接嵌入文档或者分享。

地址：

https://github.com/Cocoon-AI/architecture-diagram-generator

4. Excalidraw Diagram Generator

生成可编辑的.excalidraw JSON文件，支持9种图表类型和UML关系线，还能调用云架构图标库。Excalidraw的手绘风格本身就是技术分享里的流量密码，这个生成器让你不用手绘也能拥有那种「潦草但专业」的视觉效果。而且生成的是可编辑文件，后期微调很方便。

地址：

https://github.com/github/awesome-copilot/tree/main/skills/excalidraw-diagram-generator

5. SenseNova-Skills

商汤面向Agent运行时的AIGC技能库，可接入智能体工作流，自动评估提示词并生成专业信息图。和前面提到的SenseNova U1是同一套生态里的东西，一个负责模型能力，一个负责工程化落地。自动评估提示词这个功能很实在，毕竟prompt engineering已经被吐槽为「炼丹」很久了。

地址：

https://github.com/OpenSenseNova/SenseNova-U1

6. Luma Agents

基于Uni-1.1的自动化创意生产工具，用于广告campaign的快速生成与本地化。Luma的野心不只是做一个图像生成API，而是要把整个创意生产流程吃下来。广告行业对「快速+本地化」的需求一直很刚，如果Luma Agents能把这条链路跑通，对4A公司的冲击可能比想象中要大。

地址：https://lumalabs.ai

效率组

1. MiniMax Agent (Mavis)

MiniMax Agent的整体升级版本，支持多Agent并行工作、TokenPlan和Agent Plan合并，提供CLI、API、Agent全打通服务。MiniMax在Agent领域的布局越来越完整了，这次升级把开发者可能用到的各种接口都覆盖到了。对于想基于MiniMax搭建工作流的团队来说，省了很多对接成本。

我刚过期的订阅是不是又要续一下了0.0

地址：https://agent.minimaxi.com/

2. Unity Agent

Unity向所有用户开放的内置AI助手，提供聊天和Agent两种模式。聊天模式协助优化游戏机制、追踪漏洞；Agent模式能自主分析项目、生成并编辑代码。官方演示里直接靠文字指令就完成了场景搭建、模型生成、角色操控、武器添加全流程。虽然离完全替代手工编码还有距离，但已经能省下大量重复劳动。

3. AIHOT

卡兹克大佬发布的AI热点监控和找选题的网站，以时间线形式展示AI相关信息，还提供精选和评分机制。做内容创作的人应该能懂这个痛点，信息太多太杂，根本追不过来。AIHOT相当于给你配了一个7×24小时盯盘的编辑助理，帮你把「海选」这一步省了。

地址：https://aihot.virxact.com/

4. Recordly

开源桌面录屏与编辑工具，自动缩放、光标美化、时间线编辑，支持导出MP4和GIF。录屏软件这个品类已经卷到红海了，Recordly的差异化在于「开源+精致后处理」。自动缩放和时间线编辑这两个功能对于做教程和演示的人来说是刚需，光标美化则让最终成品看起来不那么「野生」。GIF导出也算加分项，毕竟有时候你只需要一个10秒的动图而不是一段带音轨的视频。免费、开源、够用，还要什么自行车。

地址：

https://github.com/webadderallorg/Recordly

5. PPT Master

一个生成原生PPTX文件的工具，关键是每个元素都是独立可编辑的，不是那种生成一张大图敷衍你的假PPT。支持从PDF、Word、URL或Markdown生成演示文稿，内置22个示例项目和多种风格。打工人狂喜系列，终于不用在「精美模板」和「内容填充」之间反复横跳了。不过建议不要让你老板知道这个工具的存在，否则他可能觉得你做PPT的速度还能再快一倍。

地址：

https://github.com/hugohe3/ppt-master

6. open-slide

为Agent准备的幻灯片框架，你只需要用自然语言描述想要的幻灯片，Agent负责写React代码，它负责渲染画布、缩放适配、导航控制和热重载。甚至自带演讲模式。听着像是给程序员准备的PPT工具，唯一的问题是：你可能会忍不住把所有PPT都重做一遍。

地址：

https://github.com/1weiho/open-slide

7. scientific-agent-skills

一套开箱即用的Agent技能包，覆盖科研、科学计算、工程、数据分析、金融和写作。学术打工人的福音，终于不用自己从零写prompt调教Agent了。虽然名字叫scientific，但里面不少技能对非科研场景也有用，比如数据分析那部分，社畜也能用得飞起。

地址：

https://github.com/K-Dense-AI/scientific-agent-skills

8. academic-research-skills

专门针对Claude Code的学术研究技能，把写论文流程自动化成了查资料、写、审、改、定稿的管线。如果你已经在用Claude Code，这套skill装上之后，写论文的工作流会变得异常顺滑。当然，它不能帮你凭空产生idea，但至少能把体力活部分压缩到最小。

地址：

https://github.com/Imbad0202/academic-research-skills

三、前沿动态回顾

好看的，个人感兴趣的新工具、动态信息，或一些优质资料。

大公司的动作

1-3. GPT-Realtime-2 / GPT-Realtime-Translate / GPT-Realtime-Whisper

OpenAI三连发，分别对应生产级语音智能体、实时翻译和实时转录。Realtime-2支持更深入思考、执行操作、处理中断；Translate支持70多种输入语言和13种输出语言；Whisper负责实时转录音频流并生成字幕。这一套组合拳打下来，语音交互的商用门槛又降了一大截。做跨国产品、播客、直播字幕的团队，应该已经在评估接入方案了。

4. Antigravity2.0

Google的Agent开发平台更新，带来了独立桌面应用、CLI、SDK和原生语音支持，还能并行运行多个Agent。Google在Agent基础设施上的投入越来越大，Antigravity2.0基本上覆盖了开发者可能用到的各种接入方式。不过生态建设不是一朝一夕的事，能不能追上OpenAI和Anthropic还得看后续迭代。

5. Gemini Spark

Google推出的个人AI Agent，运行在Google Cloud虚拟机上，24/7不间断工作，可处理长链路后台任务并打通Google全家桶。听着像是一个永不下班的数字助理，能帮你盯着Gmail、Calendar、Docs里的一堆琐事。想法很好，但「24/7工作」这个卖点听着实在让人有点累了。

6. Android Halo

Android上为Agent准备的home base，在状态栏显示Agent活动状态，支持用户确认。Google在把Agent塞进Android这件事上越来越认真了。状态栏显示Agent状态这个设计很妙，既不会打扰你，又能让你知道有AI在后台忙活。以后安卓用户可能习惯了状态栏里常驻一个「AI正在思考」的图标。

7-9. Google Pics / Stitch / Google Flow

Google Workspace和创意工具的三连发。Pics是Workspace里的图像创作和编辑工具，支持目标分割、文字编辑和翻译，自动添加SynthID水印；Stitch是UI设计工具，支持实时语音协作、导出代码和发布到Netlify；Flow是AI创意工作室，支持视频编辑、多机位生成、场景修改和音乐创作。Google这是要把创意生产工具全家桶补齐的节奏。

10-12. Ask Maps / Ask YouTube / Docs Live / Gemini Live

Google的一系列「AI+现有产品」更新。Maps支持自然语言查询地点和路线，YouTube支持自然语言查询视频内容并提供概览和片段跳转，Docs支持实时语音转文字并自动整理，Gemini本身也升级了语音交互支持多种方言和口音。这些产品层面的AI化看似不惊艳，但日积月累下来，用户的使用习惯会被彻底改变。

13. Gemini for Science

Google的科研工具集，包含假设生成器、计算发现引擎和科学技能包，专门用来加速科研过程。AI for Science是今年很热的话题，Google这套工具把从idea到实验设计的链路都覆盖到了。虽然它不能替代科学家的直觉和创造力，但在文献综述和假设筛选阶段确实能省下大量时间。

14. Weather Next

Google的AI天气预报模型，号称比传统模型更准、更早预警。天气预报这种极度依赖物理模拟的领域，AI能不能真正超越传统数值模型，一直存在争议。但如果Weather Next真的能在极端天气预警上提前几小时甚至几天，那价值就不是单纯的技术问题了。

15. LiteRT-LM

Google推出的端侧大模型推理框架，专为资源有限设备优化，支持全平台、多模态输入和Tool Use函数调用，兼容Gemma、Llama等主流模型。端侧推理一直是个技术深水区，Google这次把框架放出来，对于想在手机、IoT设备上跑大模型的开发者来说，省了不少自己造轮子的功夫。

16. Android XR智能眼镜

Google的智能眼镜产品，包括显示眼镜和音频眼镜，支持导航、拍照和AI交互。XR眼镜这个赛道最近又热闹起来了，Google带着Android生态杀回来，和Meta、Apple正面刚。不过智能眼镜的终极难题依然是：怎么让用户愿意天天戴着它出门。

17. SynthID

Google的AI水印技术，标记AI生成内容，支持在Chrome中右键查询，OpenAI等公司已加入。AI内容溯源一直是个难题，SynthID想从技术上解决「这是不是AI生成的」这个问题。不过水印技术能不能对抗恶意篡改，还得看实际对抗测试的结果。

18. Code Mender

谷歌 DeepMind 推出的一款 AI 代码安全助手‌，主要帮开发者自动找出并修复软件里的安全漏洞。安全漏洞这玩意儿，往往都是出事之后才被想起来，对于安全合规要求高的项目，这种工具能省不少审计时的心惊肉跳，目前是邀请测试中。

以上基本是谷歌开发者大会上发布的，大家看回放会更直观~

官方B站视频：

https://www.bilibili.com/video/BV14gLx6xERu/

学习资料

ai-engineering-from-scratch

一个从零开始学习AI工程的课程项目，包含428节课、20个阶段，从线性代数一直讲到自主多智能体系统。428节课……这个体量差不多能当半个学位用了。对于想系统学习AI工程但不想花大价钱报培训班的人来说，这种开源课程是实打实的福利。缺点是容易「从入门到放弃」，建议做好长期作战的心理准备。

地址：

https://github.com/rohitg00/ai-engineering-from-scratch

写在最后

每个月整理这些工具的时候，都有种「AI进化速度已经超越了人类记笔记速度」的感觉。不过工具越多，越要提醒自己：别为了用工具而用工具。找到真正能解决你痛点的那个，深度用下去，比浅尝辄止一百个更有价值。

这里是Seon塞翁，突然好多选题想写，加急赶稿中，大家对哪个工具更感兴趣呢？而麦麦呢，因为订阅过期了，她暂时休眠了，下个月再召唤她吧~👋

谢谢你看我的文章，

喜欢的话随手点个赞、转发、推荐吧~

关注不迷路，

一起学习更多有意思的玩意儿！