AI 工程师盛会来袭!Grok 4.3、DeepSeek V4 Pro 与智能体基建大爆发-夜雨聆风

AI 工程师盛会来袭!Grok 4.3、DeepSeek V4 Pro 与智能体基建大爆发

AI 工程师世界博览会开启第二轮征集，详细介绍了自主研究、记忆、世界模型等新主题。同时，本期内容全面回顾了 2026 年 4 月末至 5 月初的 AI 生态热点，包括 Grok 4.3 的发布、DeepSeek V4 Pro 的崛起、OpenAI Codex 的产品扩张，以及关于智能体基础设施和本地 LLM 生态的重要进展。

🚀 AI 工程师世界博览会：扩展新主题，征集演讲者

本期 Latent Space 的 AINews 带来了激动人心的消息：AI 工程师世界博览会（AI Engineer World’s Fair） 正式开启第二轮演讲者征集！

今年夏天，博览会将重返旧金山的 Moscone West 展馆。随着 AI 工程领域的快速演进，博览会新增了多个核心主题，旨在展示本年度最具影响力的研究与产品工程成果。

🌟 新增重点议题：

自主研究（Autoresearch）

：探索在实验框架和模型训练中的递归自我改进循环。
记忆（Memory）

：研究智能体和模型如何随着用户的使用而不断进化。
世界模型（World Models）

：如何解决空间智能和对抗性推理问题。
Token 最大化（Tokenmaxxing）

：作为团队负责人，如何让 AI 工程团队实现 10 倍的 AI 原生化，同时避免无效的资源浪费？
智能体商务（Agentic Commerce）

：智能体如何为数据、API 甚至其他智能体支付费用？
垂直领域 AI

：在法律、医疗、GTM（进入市场策略）和金融等特定领域的深度应用。

此外，今年还将设立机器人演示区（甚至欢迎人形机器人参加，但需有人陪同）和创业战场（Startup Battlefield），为 Pre-A 轮的初创公司提供向顶级 VC 展示的机会。

🐦 AI Twitter 热点回顾

1. Grok 4.3 发布：性价比跃升与可靠性争议

xAI 正式推出了 Grok 4.3，其核心卖点在于显著提升的性价比，但社区反馈却褒贬不一。

性能表现

：根据 Artificial Analysis 的测试，Grok 4.3 在智能体任务（GDPval-AA）上表现强劲，但在非幻觉指标上却下降了 8 个百分点。这引发了人们对其在实际应用中可靠性的担忧。
价格优势

：输入价格降低了约 40%，输出价格降低了约 60%，显示出极强的竞争性。
开源 vs 闭源

：社区对此反应两极分化。有人认为其迭代速度惊人，也有人指出它在某些基准测试上甚至落后于顶尖的中国开源模型。

2. DeepSeek V4 Pro：开源权重编码模型的新标杆

DeepSeek V4 Pro 正在成为编码和智能体任务领域最受瞩目的开源权重模型。

实测体验

：开发者报告称，DeepSeek V4 Pro 是首个在多轮编码任务中真正能与 OpenAI Codex 或 Claude Code 媲美的开源模型。
架构优势

：支持 100 万上下文，采用混合 CSA/HCA 注意力设计，KV 缓存减少至 10%，在长上下文下的推理开销大幅降低。
视觉增强

：DeepSeek 的多模态方向专注于显式空间接地（Explicit Spatial Grounding）。其技术报告提到了一种多模态 CoT 系统，可以在推理过程中直接嵌入坐标点和框，从而解决计数、迷宫和路径追踪等难题。

3. Codex 的产品狂飙 vs 智能体运行时之争

OpenAI 的 Codex 展现出了惊人的产品进化速度，而不仅仅是模型能力的提升。

极致体验

：Codex 新增了设备工具栏、CI 状态集成以及极具趣味性的“宠物系统”。OpenAI 正在构建一个完整的协作环境，而非简单的 API 端点。
运行时竞争

：竞争的焦点正从“模型智商”转向“智能体运行框架（Harness Design）”。无论是 Devin 的 Shell 集成，还是 Hermes 的 /goal 循环，亦或是 Cloudflare 的持久化执行，都在强调记忆系统、任务持久化和人机协作原语的重要性。

4. 前沿研究：递归多智能体与自我改进

ReaLM-Retrieve

：研究表明，推理模型需要在推理过程中进行检索，而非仅在开始前。这种方式将 F1 值提升了 10.1%。
递归多智能体系统

：智能体之间不再通过纯文本对话，而是通过**共享潜空间（Shared Latent Space）**进行递归计算通信，显著提升了速度并减少了 75% 的 Token 消耗。
Meta FAIR 的新思路

：提出“自我改进预训练”，通过强模型重写训练数据并评判生成质量，显著提升了模型的事实性和安全性。

🤖 AI Reddit 社区洞察

1. Qwen（通义千问）模型的进阶与基准测试

PFlash 技术

：一种针对长上下文的推测性预填充技术，在 RTX 3090 上实现了相比 llama.cpp 10 倍的预填充加速。虽然存在“有损压缩”的争议，但为本地大模型运行提供了新思路。
Qwen 3.6 vs Gemma 4

：在本地 LLM 开发 Pac-Man 游戏的竞赛中，Gemma 4 在逻辑一致性和简洁性上略胜一筹，而 Qwen 则在视觉样式和创意上更具特色。
Qwen-Scope 发布

：Qwen 团队发布了针对 2B 到 35B MoE 模型的稀疏自动编码器（SAEs）。这是一个强大的可解释性工具，允许开发者精确操纵模型的内部特征（如强制输出法律术语或 Python 代码）。

2. 本地模型的创意应用

有用户分享了使用 Qwen 3.6 27B 模型生成 SVG 矢量图的案例，成功创作出了“骑自行车的鹈鹕”和“读报纸的维多利亚时代机器人”等创意图像。这展示了本地模型在处理复杂指令和跨模态任务上的巨大潜力。

💡 笔者锐评

本周的 AINews 再次向我们展示了 AI 领域的“中国力量”——DeepSeek V4 Pro 和 Qwen 3.5/3.6 的强势表现，让开源社区看到了追赶闭源顶尖模型的希望。

值得反思的是，当硅谷已经在讨论“智能体商务”和“显式空间推理”时，国内的开发者生态是否过于关注单一的“刷榜”？AI 工程师世界博览会提出的“Tokenmaxxing”和“垂直领域 AI”其实给了我们很好的启示：AI 的未来不在于做出一个全能的神，而在于如何将 AI 能力深度嵌入到具体的工程实践和商业流程中。

特别是智能体运行时的崛起，提醒我们：模型只是发动机，而决定用户体验和业务上限的，往往是那套复杂的“变速箱”和“底盘系统”——即智能体框架、记忆系统和持久化执行能力。

求点赞 👍 求关注 ❤️ 求收藏 ⭐️你的支持是我更新的最大动力！