2026年4月15日AI日报 | 网络防御、机器人理解、中文生图,AI应用层全面开花

AI日报

2026.4.15日资讯速递

OpenAI 正式推出 GPT-5.4-Cyber，并同步扩大网络安全信任访问计划，核心不是做更“猛”的通用模型，而是为合法防御场景放宽能力边界，让安全团队能把 AI 真正接进高强度工作流。

Google DeepMind 发布 Gemini Robotics-ER 1.6，继续把“推理优先”路线推进到机器人世界，重点强化视觉空间理解、多视角推理和任务成功检测，让机器人更像真正能干活的执行体。

百度正式开源 ERNIE-Image，把重点放在“好看”之外的另一件大事上：可控性。它不只追求画质，还在中文长文本渲染、复杂指令遵循、海报与漫画等结构化内容上正面发力。

Midjourney 推出 V8.1，新版本一边把标志性美学风格重新拉回，一边把速度和成本做了大幅优化，明显是在把“创作质感”和“商业可用性”一起往上推。

NVIDIA 联合马里兰大学发布 Audio Flamingo Next，把长音频理解继续往前推，支持 30 分钟复杂音频输入和 128K 上下文，不再只做语音识别，而是冲着更完整的音频推理与时间理解去的。

字节旗下 BytePlus 上线 Seedance 2.0 接口，方向非常明确：视频生成不能只会“出片”，还要在一致性、控制力和工作流可用性上达到生产级标准。

Anthropic 重构桌面版 Claude Code，新版核心变化不是界面换皮，而是工作流升级：开发者可以在一个窗口内并排跑多个会话，把终端、编辑、预览和 diff 全都收进同一个环境里。

MiniMax 开源 M2.7，这次最值得看的不是模型权重本身，而是“自我进化”机制：智能体不只做任务，还会反思错误、修改工具与规则、决定回滚还是保留，开始真正优化“模型之外的系统”。

Meta 开始为 Meta AI 推送“沉思模式”，核心思路不是单模型更努力思考，而是让多个智能体同时并行推理，再把结果汇总成统一回答，进一步把多 Agent 协作推向产品层。

MiniMax Audio 发布 Music 2.6+，继续把 AI 音频从语音和配音扩展到音乐生成本身。虽然细节披露不算多，但方向已经很清楚：要把音乐创作变成普通用户也能直接调用的能力层。

声明：本内容由AI生成，可能包含不准确或推测性信息，请读者自行甄别并谨慎参考。

欢迎点赞收藏

持续关注每日AI前沿动态

- 立即扫码 -

更多资讯，

点击下方卡片关注赛凡智云协作平台

▲ 赛凡云盒，一款超好用的企业私有云盘