2026年4月16日AI日报 | 模型、工具、Agent 一起提速,行业进入强落地周期

Google 发布 Gemini 3.1 Flash TTS,原生支持多说话人对话
Google 推出 Gemini 3.1 Flash TTS,重点不是普通配音,而是把多角色、多语言和风格控制一起做进同一代语音模型。文本转语音开始从“能读出来”走向“能演出来”。
-
原生支持多说话人对话和 70 多种语言
-
通过 Audio Tags 用自然语言精细控制语速、语气和风格
-
已接入 Gemini API、AI Studio、Vertex AI 和 Google Vids
Vidu Q3 回归,参考生能力把 AI 视频推向生产级
Vidu Q3 正式回归,这次升级不只是在画质上加码,而是直接瞄准漫剧、短剧、广告和影视的真实生产需求,核心就是角色一致性和声画同步。
-
支持文生、图生、参考生三大入口,角色一致性明显增强
-
新增粒子、流体等视觉特效和沉浸式音效
-
已接入 Vidu SaaS 与 MaaS,价格约为行业平均三分之一
Gemini 原生 macOS 应用上线,桌面工作流进一步被 AI 接管
Google 发布 macOS 版 Gemini 原生桌面应用,主打随时唤起、直接读屏和读取本地文件,让 AI 不再停留在网页对话框里,而是开始贴着桌面工作流运行。
-
使用 Swift 原生构建,支持 macOS 15 及以上系统
-
默认可通过 Option + Space 全局快捷键一键唤起
-
支持屏幕共享与本地文件读取,直接围绕当前任务给出响应
Project Think 发布,长期运行智能体开始有了新底座
Project Think 作为下一代 Agents SDK 亮相,目标不是再做一个普通 Agent 框架,而是解决长期运行、低空闲成本和大规模会话管理这些真正卡住智能体落地的问题。
-
支持持久化执行、子智能体、沙盒代码运行和持久会话
-
基于 Durable Objects,每个智能体都有独立身份与状态
-
休眠时不消耗算力,唤醒后可继续执行,适合大规模部署
NVIDIA 发布 Lyra 2.0,一张图开始生成可探索 3D 世界
NVIDIA Research 推出 Lyra 2.0,把“从单图生成 3D 世界”继续往前推,不再只做静态重建,而是允许用户在生成后持续导航、扩展和导出整个世界。
-
可从单张图像生成持久且可探索的 3D 场景
-
通过生成式重建解决空间遗忘与时间漂移问题
-
最终可导出 3D Gaussians 或 meshes 接入物理引擎
Claude Code 支持自定义 Prompt Caching TTL,缓存控制更细了
Claude Code 在 2.1.108 版本中加入 Prompt Caching TTL 自定义能力,开发者终于可以更主动地平衡缓存命中率、上下文复用和成本,不再只能被动接受默认策略。
-
新增 1 小时缓存变量 ENABLE_PROMPT_CACHING_1H
-
也可强制设定 5 分钟缓存 TTL
-
适用于 API key、Bedrock、Vertex 和 Foundry 等场景
Gemini API 推出预付费计费,Google 开始补齐成本控制层
Google 为 Gemini API 上线预付费计费功能,明显是冲着“避免账单失控”这个真实痛点来的。对开发者和企业来说,AI 调用终于可以像云资源一样更可预测。
-
支持预先购买积分后再调用 API
-
余额不足时可自动充值,减少服务中断风险
-
目前美国先行,未来几周将逐步全球推广
Anthropic 传出 Opus 4.7 与设计工具将发布,设计软件压力骤增
消息称 Anthropic 计划推出 Claude Opus 4.7,并同步上线网页与演示文稿设计工具。重点已经不只是模型常规升级,而是把 Claude 继续往创意生产力和设计链路深处推进。
-
Opus 4.7 被视为 Opus 4.6 之后的常规旗舰升级
-
新工具瞄准网页和演示文稿设计,直接冲击 Figma、Wix 等赛道
-
Anthropic 正在把代码、办公和视觉创作进一步打通
阿里云妙悟 Meoo 上线,一句话生成完整网站
阿里云正式发布妙悟 Meoo,主打零门槛网站与 H5 生成。它不是单纯吐代码,而是把前端、后端、数据库和云资源一次性接起来,直接给出能上线的成品。
-
集成 Qwen、Kimi、GLM、MiniMax 四大模型协同生成
-
打通数据库、域名、存储、FC 沙盒和百炼 API 等阿里云能力
-
简单页面最快 1 分钟生成,复杂需求可自动拆解与修复
Windsurf 2.0 发布,Devin 被直接塞进编辑器
Windsurf 2.0 的核心升级不是一个新按钮,而是把 Devin 这种云端自主 Agent 真正接进编辑器,让开发者第一次能在一个看板里同时管理本地 Agent 和云端 Agent。
-
Agent Command Center 统一监控本地与云端 Agent 状态
-
Devin 可在独立云端虚拟机中持续执行复杂任务,关机也不停
-
Windsurf Spaces 支持按项目聚合会话、PR、文件与上下文
Cursor 上线交互式 Canvas,AI 输出开始从文本变界面
Cursor 在 3.1 版本中加入交互式 Canvas,让智能体不只回你一段话,而是直接生成图表、架构图、数据看板等可视化界面。AI 的产出形态开始从文字走向 UI。
-
基于 React UI 库原生渲染表格、图表、框体和示意图
-
可用于 PR 审查、架构理解和现实数据展示
-
也可通过技能教会智能体生成特定类型的交互式画布
OpenAI 升级 Agents SDK,沙箱和 Harness 把长任务安全性补上
OpenAI 对 Agents SDK 做了一次更像“平台级”的升级,把沙箱运行、状态恢复、统一配置和记忆系统一起补齐,让智能体不再只是能跑,而是能更安全地长期跑。
-
支持在受控 Sandbox 中运行 Agent,降低崩溃和注入风险
-
Harness 架构把状态保存与计算执行分离,支持任务恢复
-
还内置 MCP、Skills、Shell、Apply Patch 和记忆系统
Cloudflare Mesh 上线,AI Agent 终于有了更像样的私有网络
Cloudflare 发布 Mesh,把用户、服务器、节点和 AI Agent 拉进同一个零信任私有网络,重点解决的不是传统 VPN 问题,而是 Agent 安全访问数据库、API 和 MCP 的联网难题。
-
通过单一轻量连接器构建双向多对多私有网络
-
可直接配合 Workers、Durable Objects 和 Agents SDK 使用
-
每个账户免费支持最多 50 个节点和 50 个用户
OpenRouter 视频生成正式上线,多模态统一接口再补一块
OpenRouter 正式上线视频生成功能,开发者现在可以用统一 API 访问不同视频模型,不用再自己适配各家碎片化参数,多模态工作流开始更像一个完整平台。
-
统一分辨率、时长、宽高比和音频生成等关键参数
-
可与文本、图像、音频、嵌入和重排能力无缝组合
-
还支持在调用前编程式查询模型能力,适合自动化工作流
Google 扩大 Personal Intelligence 开放范围,个性化 AI 更进一步
Google 宣布把 Personal Intelligence 向更多用户开放,并将其接入 Gemini 和 Chrome。方向很明确:未来用户不需要反复解释自己,AI 会越来越依赖你已有的数据上下文。
-
可跨 Gmail、Google Photos 等应用建立个性化信息关联
-
先在 Gemini App 上线,本周晚些时候接入 Chrome
-
目标是让 AI 给出更贴近个人背景的专属回答
Anthropic 调整 Claude Enterprise 计费,固定订阅改为按量收费
Anthropic 把 Claude Enterprise 从高额固定订阅改成“基础席位费 + 实际用量”模式,本质上是在承认 Agent 时代的企业使用方式已经变了,算力消耗波动越来越大。
-
新模式为每人每月 20 美元基础席位费外加算力用量
-
调整直接受 Claude Code 和 Claude Cowork 高消耗推动
-
目前只影响 150 人以上的大企业客户,Team 与小企业不受影响
OpenAI 计划把 ChatGPT 广告做成按点击计费,商业化继续提速
消息称 OpenAI 正计划把 ChatGPT 广告从按展示计费推进到按点击计费,并进一步做转化导向广告。广告不再只是试水,而是在朝真正成熟的效果广告体系靠近。
-
广告试点面向美国免费版和 Go 用户,展示在回答底部
-
试点不到两个月已实现超 1 亿美元年化经常性收入
-
下一步计划扩展到加拿大、澳大利亚和新西兰等市场
声明:本内容由AI生成,可能包含不准确或推测性信息,请读者自行甄别并谨慎参考。
欢迎点赞收藏


夜雨聆风