AI Infra 消息速报 · 2026年04月28日
🎙️ 语音播报 · 老许漫谈 AI Infra
🎧 点击上方播放,收听今日速报语音版
⚡ AI Infra 消息速报
2026-04-28 · 每日一报,聚焦前沿
[1] DeepSeek V4:百万级上下文与国产芯片适配突破
#模型架构

架构变化:
• 采用 1.6T 总参数(49B 激活参数)的 MoE 架构,每次推理仅激活 490 亿参数
• 引入混合注意力机制(CSA 压缩稀疏注意力 + HCA 重压缩注意力),在处理百万 token 上下文时,计算量降低 73%,KV Cache 占用降低 90%
• 引入流形约束超连接(mHC),升级传统残差连接,提升信号传播稳定性
• 新增 Muon 优化器,加速训练收敛
效果收益:
• 在 100 万 token 上下文的极端场景下,单 token 推理计算量仅为前代的 27%
• SWE-bench Pro 基准测试中刷新全球最佳成绩,综合性能全面超越 GPT-5.4、Claude Opus 4.6 等国际顶级闭源模型
• 代码能力综合评测位列全球第三、国产第一、开源第一
Infra 应对:
• 算子开发:需要适配新的混合注意力机制,实现 CSA 压缩和 HCA 重压缩的 CUDA Kernel
• 并行切分策略:MoE 架构需要专家层动态分配策略,支持多 GPU 环境下的专家路由
• 显存布局:KV Cache 压缩策略需要新的显存管理机制,减少跨页调度开销
• 国产芯片适配:DeepSeek V4 已完成华为昇腾 950 的 Day0 适配,国产芯片厂商需同步更新推理引擎以支持混合注意力机制
• 编译器支持:Muon 优化器需要编译器层面的支持,国产芯片编译器需引入相应优化 pass
🔗 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
[2] Qwen 3.6-Max-Preview:智能体编程能力登顶最佳国产模型
#模型架构

架构变化:
• 智能体编程领域:SkillsBench 提升 9.9%、SciCode 提升 10.8%、NL2Repo 提升 5.0%、Terminal-Bench 2.0 提升 3.8%
• 世界知识领域:SuperGPQA 提升 2.3%、QwenChineseBench 提升 5.3%
• 指令遵循领域:ToolcallFormatIFBench 提升 2.8%
• 支持 preserve_thinking 功能,可保留所有前序轮次的思维内容,适用于智能体任务
• 支持 100 万 token 上下文窗口
效果收益:
• 在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench 等六项主要编程基准上取得最高分
• 在 OpenRouter 日榜、周榜、趋势榜均登顶冠军
• Qwen3.6-35B-A3B 开放权重版本,与 Qwen3.5-VL 桥接无需代码修改
Infra 应对:
• 算子开发:智能体编程场景需要新增工具调用优化算子,支持多轮状态管理和工具链式调用
• 并行切分策略:长上下文场景下需要优化序列并行策略,减少显存占用
• 显存布局:100 万 token 上下文需要新的 KV Cache 分页策略,动态调整页大小
• 国产芯片适配:国产芯片推理引擎需支持长上下文窗口和智能体工具调用优化
• API 服务优化:preserve_thinking 功能需要推理引擎支持思维链缓存,避免重复计算
🔗 https://huggingface.co/QwenLM/Qwen3.6
[3] GLM-5.1:8小时长程任务能力开源模型
#模型架构

架构变化:
• 首个在真实工程任务中验证了 8 小时持续工作能力的开源模型
• 能够在单次任务中持续自主地工作长达 8 小时,过程中自主规划、执行、测试,碰壁时主动切换策略
• 在 LoCoMo 基准测试中取得 76.82% 的综合性能分数
• 相比 prior 结构化方法,token 使用量减少 94.6%
效果收益:
• SWE-bench Pro 基准测试中刷新全球最佳成绩,综合性能全面超越 GPT-5.4、Claude Opus 4.6 等国际顶级闭源模型
• 代码能力综合评测位列全球第三、国产第一、开源第一
• 实现了代码与工程能力步入交付级别的根本性突破
Infra 应对:
• 算子开发:长程任务需要支持自主规划、状态管理和错误恢复的算子
• 并行切分策略:8 小时持续工作需要高效的序列并行和流水线并行策略
• 显存布局:结构化记忆框架需要高效的 KV Cache 管理和压缩策略
• 国产芯片适配:国产芯片需支持长程任务场景的稳定推理和显存优化
• 训练框架支持:需要支持强化学习训练中的长程任务评估和奖励机制
🔗 https://huggingface.co/THUDM/GLM-5.1
[4] Claude Code:多语言语音 STT 支持
#智能体工程

重要新 feature:
• 新增 10 种语言的语音转文字(Voice STT)支持:俄语、波兰语、土耳其语、乌克兰语、希腊语、捷克语、丹麦语、瑞典语、挪威语
• 修复 prompt cache bust with MCP server instructions
• 修复 Enter over slow SSH、额外 VS Code 窗口、push-to-talk on session start、markdown 链接 #NNN 引用、重复模型通知、插件显示不准确安装、/security-review on old git、/color reset、feature flag 缓存、permission mode in Claude Code Remote、skill re-injection on resume
• 新增 /claude-api skill,用于构建使用 Claude API 和 Anthropic SDK 的应用程序
效果收益:
• 语音识别语言从 10 种扩展到 20 种,覆盖更多国际化场景
• MCP 服务器指令缓存问题修复,提升工具调用稳定性
• 多项 bug 修复提升开发体验
Infra 需要做什么:
• 升级到最新版本以获取新的语音 STT 功能
• 如果使用 MCP 服务器,检查并更新缓存配置
• 更新 Claude Code Remote 权限模式配置
🔗 https://code.claude.com/docs/en/whats-new
[5] OpenClaw Red Claw:DeepSeek V4 设为默认模型
#智能体工程

重要更新:
• 将中国开源大模型 DeepSeek 最新发布的 V4 系列模型设为框架的默认基础大模型
• DeepSeek V4 Flash(2840 亿参数)成为首选推理模型
• 参数规模高达 1.6 万亿的 DeepSeek V4 Pro 版本也同步上线,供高阶开发者调用
效果收益:
• 压力测试显示,DeepSeek V4 Flash 以仅为 GPT-5 Turbo 1/5 的推理成本,实现了 98% 的逻辑跟随率
• 开源社区在全球 Agent 基础设施中占据”C位”,这是对中国 AI 基础研究能力的最高认可
Infra 需要做什么:
• 更新 OpenClaw 到最新版本以使用 DeepSeek V4 作为默认模型
• 评估 DeepSeek V4 Flash 与 Pro 版本在成本和性能上的差异,选择适合的版本
• 关注 Agent 编程场景下的推理成本和响应速度
🔗 https://github.com/openclaw/openclaw
[6] vLLM:CVE 修复与 Transformers v5 兼容
#框架

重要新 feature:
• 修复 CVE-2026-0994(Protobuf 安全漏洞)
• Transformers v5 准备的 huggingface-hub 更新
• Transformers v5 兼容性修复(多个模型)
• 移除 BitBlas 量化(#32683)和 Marlin 24(#32688)
• 移除已弃用的 reasoning_content 消息字段(#33402)和 pooling 项(#33477)
• 移除已弃用的 VLLM_ALL2ALL_BACKEND 环境变量(#33535)
效果收益:
• 修复安全漏洞,提升系统安全性
• Transformers v5 兼容性确保未来模型升级的平滑过渡
• 移除旧量化方法,简化代码维护
Infra 需要做什么:
• 升级到最新版本以应用安全修复
• 检查并更新 Transformers 版本
• 移除对已弃用功能的使用
• 国产芯片适配需确保新版本 Transformers v5 模型的正常加载
🔗 https://github.com/vllm-project/vllm/releases
[7] LMDeploy CVE-2026-33626:12小时内被利用
#底软

安全漏洞:
• GitHub 于 4 月 21 日发布安全公告(GHSA-6w67-hwm5-92mq),后被分配 CVE-2026-33626
• 漏洞在公告发布 12 小时 31 分钟后即被利用
• Sysdig 检测到首次攻击尝试发生在公告后 12 小时 31 分钟
效果收益:
• 无(安全漏洞,需立即修复)
Infra 需要做什么:
• 立即升级 LMDeploy 到修复版本
• 检查部署环境的访问控制,限制暴露面
• 国产芯片厂商需同步更新推理引擎的安全补丁
🔗 https://github.com/InternLM/lmdeploy/security/advisories
[8] 腾讯 HPC-Ops:开源高性能 LLM 推理算子库
#底软

重要新 feature:
• 采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化
• FusedMoE:MoE GEMM 加速,训练提速近 10 倍
• Attention 相比 FlashInfer/FlashAttention 最高提升 2.22 倍
• GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍
• FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍
效果收益:
• 混元模型 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%
• 在单算子性能方面,HPC-Ops 实现了显著性能突破
Infra 需要做什么:
• 集成 HPC-Ops 到推理框架中,替换现有算子实现
• 国产芯片厂商需适配 CuTe DSL 和抽象化架构
• 评估 MoE 算子在不同硬件上的性能表现
🔗 https://github.com/Tencent/HPC-Ops
[9] OpenRLHF 0.10:VLM RLHF 支持
#训练推理算法

重要新 feature:
• 新增 VLM(视觉语言模型)RLHF 支持,可训练 Qwen3.5 等带图像输入的模型端到端
• 这是 OpenRLHF 2026 年 4 月的重要更新
效果收益:
• 支持视觉语言模型的强化学习训练,扩展 RLHF 应用场景
• 与 Qwen3.5 等最新模型兼容
Infra 需要做什么:
• 升级到 OpenRLHF 0.10 版本以使用 VLM RLHF 功能
• 准备带图像输入的训练数据集
• 国产芯片训练框架需支持视觉-语言联合训练
🔗 https://github.com/OpenRLHF/OpenRLHF
夜雨聆风