今天的AI日报可以拆成三条线。
第一条是模型继续向智能体、多模态和高质量视频推进:Qwen3.7[1] 覆盖聊天、图像与视频理解、图像生成、文档处理、网页搜索、工具调用和工件生成,Kling AI 推出原生 4K 视频生成模型,SenseNova U1[2] 继续强调文本与图像的联合思考能力。
第二条是AI产品开始进入更靠近系统层和设计链路的位置:腾讯 推出操作系统层级AI助手 马维斯[3],Google Stitch[4] 更新为全流程AI设计助手,ChatGPT 移动端支持 Codex[5],Gemini 3.5 Flash 登陆 OpenCode。
第三条是行业竞争和治理风险同步加速:SpaceX 与 Anthropic 扩大AI算力合作,OpenAI 向 YC 创业公司提供 200万美元 API信用额度投资,欧盟委员会 发布高风险AI系统分类指导草案,Meta 进行万人级组织重组,GitHub 也被认为面临AI编程工具带来的结构性压力。
模型更新:Qwen3.7、Kling AI和SenseNova U1强化智能体与视频能力
Qwen Studio 推出 Qwen3.7,定位为面向智能体前沿的模型。它覆盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用和工件生成等能力,试图把当前AI智能体需要的关键模块整合到一个更综合的模型体系中。
这类模型的重点不只是“多会几项任务”,而是能否把感知、检索、工具调用和结果交付串起来。智能体真正有用时,往往不是单轮回答,而是理解输入、查找资料、调用工具、生成中间产物,并把结果组织成可用制品。
Kling AI[6] 推出全球首个原生 4K 视频生成模型,面向专业内容创作。该模型支持一键生成真 4K 画质视频,重点提升画面细节和制作效率,并已被好莱坞团队、动画工作室等采用。
原生 4K 的意义在于从底层生成高分辨率画面,而不是依赖后期放大。对角色一致性、复杂纹理、艺术色调和特效细节来说,原生生成比传统超分辨率更接近专业流程需求。
SenseNova U1 也继续展示文本与图像联合思考能力。它被描述为既能写作、也能生成图像,并能同时处理文本和视觉表达的AI。
这说明多模态模型正在从“输入多模态”进入“思考和输出也多模态”的阶段。未来的内容创作不会只是在文字和图片之间切换,而是让模型同时理解叙事、构图、视觉风格和表达目标。
产品更新:马维斯上岗,Stitch和Codex扩展工作流
腾讯 发布操作系统层级AI助手 马维斯,支持 Windows、Mac 和 Android。它具备文档归类解析、图片智能识别处理、系统维护等功能,并强调与操作系统深度集成,可调度不同模型处理任务,部分功能还能离线使用。
马维斯 的定位值得关注。AI助手如果进入系统层,就不只是聊天应用,而是可能接管文件、窗口、设备、手机应用和维护任务。这里的关键会是权限、可见性、撤销能力和本地数据安全。
Google Stitch 迎来重要更新,支持实时流式构建设计,用户可以在不中断流程的情况下直接编辑和反馈。它还能导入现有代码库或 Design.md 文件,基于生产组件生成设计,保持品牌一致性,并支持动态界面生成和项目在线分享。
这说明AI设计工具正在从“生成原型图”走向“基于真实组件和代码库构建产品界面”。如果设计助手能理解生产组件、品牌规范和代码结构,它就更容易进入真实团队协作,而不是停留在概念稿阶段。
ChatGPT 移动端支持 Codex,用户可以通过移动应用随时回答问题,之后在电脑上继续同一对话。这让编程Agent进一步变成跨设备协作工具。
Midjourney V8.1[7] 恢复反向提示功能,也就是 --no 标志。用户可以明确要求从图像中排除某些元素,例如 --no people。这类控制能力看似细小,但对图像生产很重要,因为实际创作常常不只要求“生成什么”,也要求“不要生成什么”。
MiniMax Speech 2.8 Turbo[8] 新增 600 多种声音,并通过 Together AI 提供体验。语音模型正在从少数通用音色,走向更丰富的声音库和更细粒度的选择。
OpenClaw 2026.5.19[9] 发布,更新包括 Android Talk Mode 实时化、Mac 设置界面优化、xAI 登录支持无头模式,以及 Telegram 话题功能更稳定。Gemini 3.5 Flash[10] 也登陆 OpenCode,提供高速、100万 上下文和接近 GLM、Kimi、DeepSeek Pro 的定价。
行业动态:算力、创业投资、监管和组织重组同时推进
SpaceX 与 Anthropic[11] 扩大合作,开始大规模提供AI算力服务。Elon Musk 表示,SpaceX 还在与其他公司进行类似合作讨论,未来特别是通过轨道数据中心,可能以极高规模提供AI服务。
这说明AI算力竞争正在跨出传统云厂商范围。卫星网络、能源、数据中心和轨道基础设施,都可能成为下一轮AI基础设施叙事的一部分。
OpenAI[12] 宣布向 Y Combinator 当前批次的每家创业公司提供价值 200万美元 的 API 信用额度投资,以换取股权。这个动作既是算力资源支持,也是生态投资。
对创业公司来说,模型调用额度可能已经接近早期基础设施资本。对平台方来说,把创业公司锁定在自己的模型和工具链上,也是在提前争夺下一代应用生态。
监管侧,欧盟委员会[13] 发布《欧盟人工智能法》高风险AI系统分类指导草案,并开启公众咨询。草案围绕AI系统预期用途,说明哪些系统会被归入高风险,例如作为受监管产品组件,或用于特定高风险场景;同时也提出部分豁免条件,例如仅执行辅助性任务时可能不被视为高风险。公众咨询期至 6月23日。
这说明监管正在从原则进入分类细则。企业真正需要关心的,不只是“是否使用AI”,而是系统用途、部署场景、责任角色和风险等级。
软银[14] 对 OpenAI 的投资承诺已超过 600亿美元,引发内部对资本集中风险的担忧。报道指出,软银虽持股超过 **10%**,但没有董事会席位,缺乏决策影响力;同时 Anthropic 等竞争对手崛起,也加剧了对 OpenAI 领先地位的挑战。
Meta[15] 启动大规模组织调整,计划削减约 8000 个岗位,同时将约 7000 名员工调配至新的AI相关职位。这不是单纯裁员,而是围绕AI基础设施、基础模型构建和AI商业化进行内部资源重组。
GitHub[16] 也被认为面临AI编程工具带来的“生存级风险”。Cursor、Claude Code 等工具改变开发者工作流,可能削弱持续把代码上传到 GitHub 的必要性。Microsoft 已要求部分团队停止试用 Claude Code,转向自有工具 GitHub Copilot CLI。
同一组行业变化里,Google[17] 正在应对AI搜索结果被操纵的风险,Gemini 与 XPRIZE[18] 也联合发起全球黑客松,鼓励开发者用智能体工具解决现实世界挑战。
这类信号说明AI正在重塑软件产业的基础设施版图。过去代码托管、IDE、模型平台、云服务边界清晰;现在AI编程工具正在把这些边界重新打散。
研究进展:OpenAI解决几何猜想,ZCube优化大模型推理网络
OpenAI 模型[19]解决了数学界悬而未决超过 80年 的“单元距离问题”,并推翻了离散几何领域的一个核心猜想。这被视为AI驱动数学研究的重要进展。
这类突破的意义在于,AI不只是辅助写代码或整理资料,也开始进入基础科学理论探索。未来数学研究可能更多采用人机协作方式:模型提出构造或反例,人类负责验证、解释和扩展。
智谱 发布 ZCube[20] 网络架构,面向超大规模大模型推理优化。它通过取消 Spine 层、将 Leaf 交换机分组并全互联等设计,缓解推理网络拥塞。
在集群实测中,ZCube 将交换机与光模块资本支出减少 **33%**,让 GPU 平均推理吞吐提升 **15%**,并将首 token 延迟 P99 降低 **40.6%**。
随着模型调用规模扩大,推理优化不只是算法问题,也包括网络架构、通信拓扑、缓存、调度和硬件成本。谁能降低推理延迟和资本开支,谁就能在大规模AI服务中获得更强成本优势。
技巧与观点:Codex插件、OpenRouter缓存和AI销售自动化
开发者工具侧,有开源油猴脚本[21]支持小红书、抖音、微信公众号的截图粘贴自动上传,并支持 YouTube 字幕复制、倍速调节及内容导出到 NotebookLM、ChatGPT 等工具。这类脚本把内容处理和多平台分发进一步自动化。
另一个开源项目[22]为 Codex App 增添高级功能。即使通过 API 登录,用户也可以通过插件启用 Computer Use 特性并添加 Goal 指令,还能自定义界面,例如改成类似 Chrome 的顶部Tab样式,并设置任务开始和完成的提醒音效。
OpenRouter[23] 说明自动路由缓存机制:用户无需担心自动路由和单独模型的缓存未命中问题,OpenRouter 会将会话固定在一个模型或提供商上,直到缓存过期。这对多模型路由很关键,因为频繁切换模型会破坏上下文缓存和成本稳定性。
Ramp 工程师团队用 Codex[24] 加速代码审查。工具能够在数分钟内为代码变更提供实质性反馈和改进建议,把原本可能需要数小时的审查周期大幅压缩。
PixVerse[25] 展示了一个用于生成超真实足球自拍视频的复杂提示词。它通过详细设定角色外貌、球场环境、手机拍摄运动、抖动、失焦和动作序列,来提升视频连贯性和真实感。这说明视频生成仍然高度依赖提示词结构和细节控制。
Anthropic 销售负责人使用 Claude Cowork[26] 管理 4000 个客户账户。它帮助完成客户倾向性评分、每日客户简报和每周销售预测报告,每晚自动处理账户数据,替代跨部门团队数百小时工作,并每天节省约 90分钟。
这类案例说明企业AI的价值往往不在“聊天”,而在把重复的数据整理、评分、报告和预测变成可持续运行的工作流。
Gary Marcus[27] 继续提醒生成式AI狂飙突进带来的社会反弹风险。公众在数据隐私、内容真实性和伦理冲击上的担忧,可能迫使行业重新思考安全、透明和负责任的发展路径。
今日观察
今天最重要的信号是:AI正在同时向上进入模型前沿,向下进入操作系统、代码审查、销售管理和内容分发这些具体工作流。
Qwen3.7 把智能体关键能力整合进模型,Kling AI 推动原生 4K 视频生成,马维斯 进入操作系统层,Google Stitch 接入真实设计和代码流程,Codex 则继续跨设备和插件化扩展。
但产业层面的压力也在同步上升。SpaceX 提供AI算力,OpenAI 用API额度投资创业公司,Meta 调整万人组织,GitHub 面临AI编程工具冲击,欧盟人工智能法 也开始进入更细的分类指导。
下一阶段的竞争不只是模型发布,而是谁能把模型能力、安全边界、算力成本、产品入口和合规责任组合成可持续的系统。
参考链接
Qwen3.7:智能体前沿:https://qwen.ai/blog?id=qwen3.7
SenseNova U1:同时思考文本与图像的AI:https://x.com/SenseTime_AI/status/2057049434782097851
腾讯张军官宣操作系统层级 AI 助手“马维斯”正式上工,Windows、Mac、安卓端同步上线:https://www.ithome.com/0/953/096.htm
Google Stitch更新:AI设计助手实现全流程构建:https://x.com/googleaidevs/status/2057209295763300785
ChatGPT移动端支持Codex,实现跨设备协作:https://x.com/OpenAIDevs/status/2057142816497906045
Kling AI推出全球首个原生4K视频生成模型:https://x.com/Kling_ai/status/2056950317712101599
V8.1新增反向提示功能:https://x.com/midjourney/status/2057184157869199429
MiniMax语音模型新增600余种声音:https://x.com/MiniMax_AI/status/2057177048356180296
OpenClaw 2026.5.19版本发布:https://x.com/openclaw/status/2057202955581809093
Gemini 3.5 Flash登陆OpenCode平台:https://x.com/opencode/status/2057017380941795667
SpaceX与Anthropic合作提供大规模AI算力服务:https://x.com/elonmusk/status/2057228707606196434
OpenAI向所有YC创业公司提供200万美元API投资:https://x.com/gdb/status/2056948285038887255
欧盟委员会发布《欧盟人工智能法》高风险AI系统分类指导草案并开启公众咨询:https://www.dataguidance.com/news/eu-commission-publishes-draft-guidelines-classifying
投资超 600 亿美元,孙正义豪赌 OpenAI 引发内部质疑“迷信奥尔特曼如追星”:https://www.ithome.com/0/953/021.htm
Meta万人重组:裁员与AI转型并举:https://x.com/rohanpaul_ai/status/2057177976492720363
消息称微软内部示警:GitHub 面临生存级风险,AI 编程工具削弱托管必要性:https://www.ithome.com/0/952/645.htm
谷歌的人工智能正遭到操纵。这家搜索巨头正在悄然反击:https://www.bbc.com/future/article/20260519-google-tackles-attempts-to-hack-its-ai-results
Gemini与XPRIZE联合举办全球黑客松:https://x.com/googleaidevs/status/2057166550243872920
OpenAI模型证伪了离散几何中的一个核心猜想:https://openai.com/index/model-disproves-discrete-geometry-conjecture
ZCube:超大规模大模型推理的网络优化:https://www.zhipuai.cn/zh/research/160
开源油猴脚本实现多平台截图上传与内容处理:https://x.com/vista8/status/2056982823169568779
开源插件为Codex App增添高级功能:https://x.com/vista8/status/2057124658927812758
OpenRouter自动路由缓存机制说明:https://x.com/OpenRouter/status/2057128446300737702
Ramp工程师如何用Codex加速代码审查:https://openai.com/index/ramp
Prompt驱动AI生成超真实足球自拍视频:https://x.com/PixVerse_/status/2057003487716876505
Anthropic销售负责人如何利用Claude Cowork管理4000个客户账户:https://claude.com/blog/how-an-anthropic-sales-leader-uses-claude-cowork-to-run-a-4-000-account-book
生成式AI是否会沦为科技行业的“越南战争”?公众抵制能否引领AI走向更优的发展路径?:https://garymarcus.substack.com/p/could-generative-ai-could-turn-out
夜雨聆风