AI 不只会聊天了:机器人、Agent 运行时和推理框架都在变硬核

开场白

今天刷到一组 AI 更新，我第一反应不是“又有新模型了”，而是：AI 圈的重点正在往两个方向挪。

一个方向是往真实世界挪。机器人、本地推理、合成数据、Physical AI，这些词开始频繁出现在同一条链路里。

另一个方向是往系统工程挪。Agent 不再只是会调用工具就完事，真正难的是长程执行、权限边界、日志审计、失败恢复，还有你能不能看懂它中间到底干了什么。

所以今天这篇不按论文和 release note 一条条念。我们换个更实用的角度看：这些更新跟普通开发者、内容创作者、AI infra 团队，到底有什么关系。

AI 前沿

Physical AI 技术链路原创讲解图

1. AI 正在从屏幕里走出来，但别急着想成“机器人马上满街跑”

以前聊 AI，很多人默认是在聊天框、IDE、文档和浏览器里发生的事。

这两天更有意思的信号是：Physical AI 又被推到台前了。NVIDIA Cosmos 3 被 Hugging Face 博客称为面向 Physical AI reasoning and action 的开放 omni-model；Reachy Mini 展示了本地对话能力；RoboDream 这篇论文则盯着机器人训练最头疼的数据问题。

这三件事放在一起看，比单独看某个模型发布更有意思。

因为机器人要真的干活，不是“看懂一张图”就够了。它还要知道动作能不能做、环境会不会变、硬件身体有什么限制。比如一个机械臂抓杯子，视频里看起来顺手，不代表真实机器人的关节、夹爪、速度和安全边界都允许。

RoboDream 的思路就卡在这里：不要只给模型看更多视频，而是让生成的数据尽量跟机器人的本体和动作约束对齐。Reachy Mini 的本地化，则是在另一个方向补体验：低延迟、可离线、隐私更可控。

我更关心的是，这条线未来会不会变成一个普通开发者也能拼起来的链路：开放模型负责理解，合成数据负责扩展训练，本地推理负责交互，机器人硬件负责执行。

现在还早。Cosmos 3 的具体结构、许可和 benchmark 还要看完整官方材料；RoboDream 也还是 arXiv 预印本。但“AI 进入真实世界”这件事，已经不再只是一个炫酷 demo 了。

Reachy Mini 本地对话：机器人开始把推理放到本地

2. Agent 最难的不是会调用工具，而是连续做很多步之后还不乱

Agent demo 往往很好看：打开网页、搜索资料、点按钮、填表格，一路自动跑。

但真到企业里，问题马上变得朴素：它为什么点这个？它有没有权限？失败了怎么恢复？日志能不能审计？用户能不能中途接管？

ClinEnv 这篇医疗 agent benchmark 给了一个很直接的提醒。它把真实住院记录做成交互式多阶段环境，让模型一步步查询信息、做检查、用药和诊断决策。论文里提到，七个模型中最强模型 decision F1 也只有 0.31，而且 outcome quality 和 process quality 会脱钩。

翻译成人话就是：最后看起来答得还行，不代表过程靠谱。

这跟企业 agent 很像。一个 agent 最后生成了报表，不代表它中间没查错库、没跳过关键审批、没把临时页面状态误当成事实。

所以 LangGraph 1.2.3 这种 release 里那些看似“不性感”的更新，反而值得看：RemoteGraph、streaming、websocket/SSE primitives、tool-call projections、subagent naming……这些东西不是为了做更花的 demo，而是为了让 agent 的运行过程可以被拆开、观察、传输和治理。

IBM Research 提到 agent logic，也是同一个方向：企业 AI 不是把 LLM 放大就完事，而是要把模型放进一套可约束、可审计、可恢复的流程里。

企业 agent 真正难的是流程、权限和可治理执行

LangGraph 1.2.3：agent runtime 开始补远程图和流式执行

3. 当 AI 开始给 AI 打分，裁判自己也可能被“漂亮话”骗

LLM-as-a-Judge 已经很常见了。写评测、做自动打分、筛数据、跑 RLHF/RLAIF，很多地方都离不开它。

但多模态场景里有个坑：裁判模型到底是在看图，还是在奖励一段听起来很合理的文字？

这次有篇论文专门分析 Perceptual Judgment Bias。简单说，当视觉证据和候选回答的文字叙事冲突时，judge 模型可能偏向那个“写得像真的”的答案，而不是图像里真正发生的事。

这个问题很现实。比如一个电商图片问答系统，候选答案把商品颜色说错了，但语气很完整、逻辑很顺。如果 judge 更吃文字叙事，评测结果就会把错答案当好答案。后续模型再根据这个奖励优化，就可能越训越会“讲漂亮错话”。

所以多模态评测不能只看分数涨没涨，还要看裁判模型有没有真的对齐视觉证据。

4. 推理框架越来越复杂，因为“更快更便宜”已经不是一个参数能解决的事

vLLM v0.22.0 这次 release 看起来像一份系统工程清单：DeepSeek V4 hardening、Model Runner V2、experimental Rust frontend、Cutlass FP8、multi-tier KV cache offloading……

如果你只是普通用户，可能只会关心“模型回答快不快”。但对 infra 团队来说，快背后是一堆取舍：显存怎么省，KV cache 放哪里，MoE 怎么调度，长上下文怎么撑住，GPU 不同型号怎么兼容。

release note 里提到的 28.9% 端到端延迟改进也要小心看。它来自特定 batch-invariant inference/Cutlass FP8 场景，不是所有模型、所有硬件、所有业务流量都会自动快 28.9%。

真正靠谱的做法还是拿自己的模型、自己的 GPU、自己的流量形态跑基线。

vLLM v0.22.0：推理框架越来越像系统工程手册

5. 代码模型正在从“聊天助手”变成 IDE 里的基础设施

JetBrains 发布 Mellum2，一个 12B Mixture-of-Experts 代码模型，这个信号也挺有意思。

代码模型以前经常被放在“聊天机器人会写代码”这个语境里。但 IDE 厂商真正想要的，往往不是一个会聊天的大模型，而是一个能贴着编辑器状态工作的模型：补全要快，重构要懂上下文，测试生成要贴项目结构，最好还能和导航、错误提示、版本管理这些功能连起来。

MoE 的吸引力也在这里：在成本和专项能力之间找平衡。

这不代表 Mellum2 一定比通用模型强，能力还得看真实 IDE 集成、延迟、语言覆盖和独立评测。但趋势很清楚：AI coding 的竞争，正在从“谁能回答一道题”转向“谁能嵌进开发者每天的工作流”。

JetBrains Mellum2：IDE 原生代码模型继续升温

浪里淘金

browser-use：适合拿来观察浏览器 agent 到底错在哪

如果你想试一个有画面感的 agent 项目，browser-use 还是值得点开。

这次 0.12.9 的更新不算大，但很实用：它会把 session id 传给 judge LLM calls，还修了新标签页截图的问题。听起来很小，实际是在补“排错链路”。

浏览器 agent 最常见的尴尬不是完全不会做，而是做到一半突然误判页面状态。它到底是没看到按钮，还是截图错了，还是 judge 判断错了？有 session id，至少更容易把这些调用串起来复盘。

适合谁试：想做网页自动化、网页 QA、资料检索 agent 的开发者。

链接：https://github.com/browser-use/browser-use/releases/tag/0.12.9

限制：浏览器 agent 对页面状态、截图、权限、反爬和模型判断都很敏感，不适合直接拿去跑高风险业务。

smolagents：轻量工具调用实验，适合快速搭小原型

smolagents v1.26.0 加了 Exa 作为 WebSearchTool 搜索引擎选项，同时移除了 remote WasmExecutor。

我觉得它适合做那种“小而清楚”的实验：比如同一个资料检索任务，用不同搜索后端跑一遍，看结果质量、噪声、引用覆盖有什么差异。

这比一上来搭一个复杂 agent 平台更适合学习。你会很快看到：agent 的效果不只由模型决定，工具质量、搜索源、执行边界同样会影响最终答案。

链接：https://github.com/huggingface/smolagents/releases/tag/v1.26.0

限制：轻量框架更新频繁，生产使用前要认真看执行安全、依赖版本和 API 变动。

vLLM v0.22.0：infra 团队可以测，但别只看 release note

vLLM 是高吞吐 LLM serving 的关键项目之一，这次 v0.22.0 信息量很大。

如果你在做推理部署，建议把它当作一次测试机会，而不是直接升级理由。最小动作可以很简单：拿同一个模型、同一批请求，在旧版本和 v0.22.0 上分别测吞吐、首 token 延迟、显存占用和错误率。

适合谁试：AI infra 工程师、私有化部署团队、正在适配 DeepSeek V4 或 MoE 模型的团队。

链接：https://github.com/vllm-project/vllm/releases/tag/v0.22.0

限制：release note 的性能数字不能直接搬到自己的业务里，尤其是 GPU、batch、上下文长度、量化方式不同的时候。

Reachy Mini local conversation：适合做“AI 走出屏幕”的演示入口

Reachy Mini 的本地对话能力很适合内容演示。

它不是说家庭机器人马上成熟，而是给了一个很直观的切口：当机器人交互不完全依赖云端，大模型的低延迟、离线可用、隐私和硬件约束会一起进入产品设计。

适合谁试：机器人爱好者、教育硬件团队、想做具身智能科普的内容创作者。

链接：https://huggingface.co/blog/local-reachy-mini-conversation

限制：本地运行体验取决于模型大小、硬件算力、语音链路和动作安全，demo 好看不等于稳定可部署。

今天值得想一想

今天这些信号放在一起，我会有一个很朴素的判断：AI 的下一段竞争，可能没那么像“谁的模型更会聊天”，而更像“谁能把模型放进真实流程”。

机器人是最极端的例子。它一旦出错，不是回答错一句话，而是可能碰到真实物体。

企业 agent 也是类似。它一旦乱调用工具，影响的可能是数据、流程、审批和责任。

所以别只盯着 demo 有多炫。更值得看的，反而是那些听起来很工程的东西：本地推理、合成数据、RemoteGraph、streaming、session id、KV cache、执行边界。

这些细节没那么好传播，但它们决定了 AI 能不能从“看起来聪明”走向“真的可用”。

结尾互动

如果你最近也在试 agent、浏览器自动化或者本地模型，可以留言说说：你遇到的最大问题是模型不聪明，还是流程、工具和环境太难控？

我更想看后者。因为那通常才是产品真正开始落地时会遇到的问题。

参考与信息来源

本稿事实主要来自 2026-06-02 的 ClawMax AI 技术报告及其记录的公开来源。图片中的信源图来自对应网页、GitHub OpenGraph 或报告已保存素材，发布前仍建议人工复核版权、署名和平台使用限制。

1. Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action - https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

2. Reachy Mini goes fully local - https://huggingface.co/blog/local-reachy-mini-conversation

3. Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains - https://huggingface.co/blog/JetBrains/mellum2-launch

4. Beyond LLMs: Why Scalable Enterprise AI Adoption Depends on Agent Logic - https://huggingface.co/blog/ibm-research/agent-logic-and-scalable-ai-adoption

5. RoboDream: Compositional World Models for Scalable Robot Data Synthesis - https://arxiv.org/abs/2606.02577

6. ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents - https://arxiv.org/abs/2606.02568

7. Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling - https://arxiv.org/abs/2606.02578

8. vLLM v0.22.0 release - https://github.com/vllm-project/vllm/releases/tag/v0.22.0

9. LangGraph 1.2.3 release - https://github.com/langchain-ai/langgraph/releases/tag/1.2.3

10. smolagents v1.26.0 release - https://github.com/huggingface/smolagents/releases/tag/v1.26.0

11. Transformers v5.9.0 release - https://github.com/huggingface/transformers/releases/tag/v5.9.0

12. browser-use 0.12.9 release - https://github.com/browser-use/browser-use/releases/tag/0.12.9