AI日报 | 5月21日:Qwen3.7推进智能体能力,视频生成和系统级继续升温

今天的AI日报可以拆成三条线。

第一条是模型继续向智能体、多模态和高质量视频推进：Qwen3.7^[1] 覆盖聊天、图像与视频理解、图像生成、文档处理、网页搜索、工具调用和工件生成，Kling AI 推出原生 4K 视频生成模型，SenseNova U1^[2] 继续强调文本与图像的联合思考能力。

第二条是AI产品开始进入更靠近系统层和设计链路的位置：腾讯推出操作系统层级AI助手 马维斯^[3]，Google Stitch^[4] 更新为全流程AI设计助手，ChatGPT 移动端支持 Codex^[5]，Gemini 3.5 Flash 登陆 OpenCode。

第三条是行业竞争和治理风险同步加速：SpaceX 与 Anthropic 扩大AI算力合作，OpenAI 向 YC 创业公司提供 200万美元 API信用额度投资，欧盟委员会 发布高风险AI系统分类指导草案，Meta 进行万人级组织重组，GitHub 也被认为面临AI编程工具带来的结构性压力。

模型更新：Qwen3.7、Kling AI和SenseNova U1强化智能体与视频能力

Qwen Studio 推出 Qwen3.7，定位为面向智能体前沿的模型。它覆盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用和工件生成等能力，试图把当前AI智能体需要的关键模块整合到一个更综合的模型体系中。

这类模型的重点不只是“多会几项任务”，而是能否把感知、检索、工具调用和结果交付串起来。智能体真正有用时，往往不是单轮回答，而是理解输入、查找资料、调用工具、生成中间产物，并把结果组织成可用制品。

Kling AI^[6] 推出全球首个原生 4K 视频生成模型，面向专业内容创作。该模型支持一键生成真 4K 画质视频，重点提升画面细节和制作效率，并已被好莱坞团队、动画工作室等采用。

原生 4K 的意义在于从底层生成高分辨率画面，而不是依赖后期放大。对角色一致性、复杂纹理、艺术色调和特效细节来说，原生生成比传统超分辨率更接近专业流程需求。

SenseNova U1 也继续展示文本与图像联合思考能力。它被描述为既能写作、也能生成图像，并能同时处理文本和视觉表达的AI。

这说明多模态模型正在从“输入多模态”进入“思考和输出也多模态”的阶段。未来的内容创作不会只是在文字和图片之间切换，而是让模型同时理解叙事、构图、视觉风格和表达目标。

产品更新：马维斯上岗，Stitch和Codex扩展工作流

腾讯发布操作系统层级AI助手 马维斯，支持 Windows、Mac 和 Android。它具备文档归类解析、图片智能识别处理、系统维护等功能，并强调与操作系统深度集成，可调度不同模型处理任务，部分功能还能离线使用。

马维斯 的定位值得关注。AI助手如果进入系统层，就不只是聊天应用，而是可能接管文件、窗口、设备、手机应用和维护任务。这里的关键会是权限、可见性、撤销能力和本地数据安全。

Google Stitch 迎来重要更新，支持实时流式构建设计，用户可以在不中断流程的情况下直接编辑和反馈。它还能导入现有代码库或 Design.md 文件，基于生产组件生成设计，保持品牌一致性，并支持动态界面生成和项目在线分享。

这说明AI设计工具正在从“生成原型图”走向“基于真实组件和代码库构建产品界面”。如果设计助手能理解生产组件、品牌规范和代码结构，它就更容易进入真实团队协作，而不是停留在概念稿阶段。

ChatGPT 移动端支持 Codex，用户可以通过移动应用随时回答问题，之后在电脑上继续同一对话。这让编程Agent进一步变成跨设备协作工具。

Midjourney V8.1^[7] 恢复反向提示功能，也就是 --no 标志。用户可以明确要求从图像中排除某些元素，例如 --no people。这类控制能力看似细小，但对图像生产很重要，因为实际创作常常不只要求“生成什么”，也要求“不要生成什么”。

MiniMax Speech 2.8 Turbo^[8] 新增 600 多种声音，并通过 Together AI 提供体验。语音模型正在从少数通用音色，走向更丰富的声音库和更细粒度的选择。

OpenClaw 2026.5.19^[9] 发布，更新包括 Android Talk Mode 实时化、Mac 设置界面优化、xAI 登录支持无头模式，以及 Telegram 话题功能更稳定。Gemini 3.5 Flash^[10] 也登陆 OpenCode，提供高速、100万 上下文和接近 GLM、Kimi、DeepSeek Pro 的定价。

行业动态：算力、创业投资、监管和组织重组同时推进

SpaceX 与 Anthropic^[11] 扩大合作，开始大规模提供AI算力服务。Elon Musk 表示，SpaceX 还在与其他公司进行类似合作讨论，未来特别是通过轨道数据中心，可能以极高规模提供AI服务。

这说明AI算力竞争正在跨出传统云厂商范围。卫星网络、能源、数据中心和轨道基础设施，都可能成为下一轮AI基础设施叙事的一部分。

OpenAI^[12] 宣布向 Y Combinator 当前批次的每家创业公司提供价值 200万美元 的 API 信用额度投资，以换取股权。这个动作既是算力资源支持，也是生态投资。

对创业公司来说，模型调用额度可能已经接近早期基础设施资本。对平台方来说，把创业公司锁定在自己的模型和工具链上，也是在提前争夺下一代应用生态。

监管侧，欧盟委员会^[13] 发布《欧盟人工智能法》高风险AI系统分类指导草案，并开启公众咨询。草案围绕AI系统预期用途，说明哪些系统会被归入高风险，例如作为受监管产品组件，或用于特定高风险场景；同时也提出部分豁免条件，例如仅执行辅助性任务时可能不被视为高风险。公众咨询期至 6月23日。

这说明监管正在从原则进入分类细则。企业真正需要关心的，不只是“是否使用AI”，而是系统用途、部署场景、责任角色和风险等级。

软银^[14] 对 OpenAI 的投资承诺已超过 600亿美元，引发内部对资本集中风险的担忧。报道指出，软银虽持股超过 **10%**，但没有董事会席位，缺乏决策影响力；同时 Anthropic 等竞争对手崛起，也加剧了对 OpenAI 领先地位的挑战。

Meta^[15] 启动大规模组织调整，计划削减约 8000 个岗位，同时将约 7000 名员工调配至新的AI相关职位。这不是单纯裁员，而是围绕AI基础设施、基础模型构建和AI商业化进行内部资源重组。

GitHub^[16] 也被认为面临AI编程工具带来的“生存级风险”。Cursor、Claude Code 等工具改变开发者工作流，可能削弱持续把代码上传到 GitHub 的必要性。Microsoft 已要求部分团队停止试用 Claude Code，转向自有工具 GitHub Copilot CLI。

同一组行业变化里，Google^[17] 正在应对AI搜索结果被操纵的风险，Gemini 与 XPRIZE^[18] 也联合发起全球黑客松，鼓励开发者用智能体工具解决现实世界挑战。

这类信号说明AI正在重塑软件产业的基础设施版图。过去代码托管、IDE、模型平台、云服务边界清晰；现在AI编程工具正在把这些边界重新打散。

研究进展：OpenAI解决几何猜想，ZCube优化大模型推理网络

OpenAI 模型^[19]解决了数学界悬而未决超过 80年 的“单元距离问题”，并推翻了离散几何领域的一个核心猜想。这被视为AI驱动数学研究的重要进展。

这类突破的意义在于，AI不只是辅助写代码或整理资料，也开始进入基础科学理论探索。未来数学研究可能更多采用人机协作方式：模型提出构造或反例，人类负责验证、解释和扩展。

智谱发布 ZCube^[20] 网络架构，面向超大规模大模型推理优化。它通过取消 Spine 层、将 Leaf 交换机分组并全互联等设计，缓解推理网络拥塞。

在集群实测中，ZCube 将交换机与光模块资本支出减少 **33%**，让 GPU 平均推理吞吐提升 **15%**，并将首 token 延迟 P99 降低 **40.6%**。

随着模型调用规模扩大，推理优化不只是算法问题，也包括网络架构、通信拓扑、缓存、调度和硬件成本。谁能降低推理延迟和资本开支，谁就能在大规模AI服务中获得更强成本优势。

技巧与观点：Codex插件、OpenRouter缓存和AI销售自动化

开发者工具侧，有开源油猴脚本^[21]支持小红书、抖音、微信公众号的截图粘贴自动上传，并支持 YouTube 字幕复制、倍速调节及内容导出到 NotebookLM、ChatGPT 等工具。这类脚本把内容处理和多平台分发进一步自动化。

另一个开源项目^[22]为 Codex App 增添高级功能。即使通过 API 登录，用户也可以通过插件启用 Computer Use 特性并添加 Goal 指令，还能自定义界面，例如改成类似 Chrome 的顶部Tab样式，并设置任务开始和完成的提醒音效。

OpenRouter^[23] 说明自动路由缓存机制：用户无需担心自动路由和单独模型的缓存未命中问题，OpenRouter 会将会话固定在一个模型或提供商上，直到缓存过期。这对多模型路由很关键，因为频繁切换模型会破坏上下文缓存和成本稳定性。

Ramp 工程师团队用 Codex^[24] 加速代码审查。工具能够在数分钟内为代码变更提供实质性反馈和改进建议，把原本可能需要数小时的审查周期大幅压缩。

PixVerse^[25] 展示了一个用于生成超真实足球自拍视频的复杂提示词。它通过详细设定角色外貌、球场环境、手机拍摄运动、抖动、失焦和动作序列，来提升视频连贯性和真实感。这说明视频生成仍然高度依赖提示词结构和细节控制。

Anthropic 销售负责人使用 Claude Cowork^[26] 管理 4000 个客户账户。它帮助完成客户倾向性评分、每日客户简报和每周销售预测报告，每晚自动处理账户数据，替代跨部门团队数百小时工作，并每天节省约 90分钟。

这类案例说明企业AI的价值往往不在“聊天”，而在把重复的数据整理、评分、报告和预测变成可持续运行的工作流。

Gary Marcus^[27] 继续提醒生成式AI狂飙突进带来的社会反弹风险。公众在数据隐私、内容真实性和伦理冲击上的担忧，可能迫使行业重新思考安全、透明和负责任的发展路径。

今日观察

今天最重要的信号是：AI正在同时向上进入模型前沿，向下进入操作系统、代码审查、销售管理和内容分发这些具体工作流。

Qwen3.7 把智能体关键能力整合进模型，Kling AI 推动原生 4K 视频生成，马维斯 进入操作系统层，Google Stitch 接入真实设计和代码流程，Codex 则继续跨设备和插件化扩展。

但产业层面的压力也在同步上升。SpaceX 提供AI算力，OpenAI 用API额度投资创业公司，Meta 调整万人组织，GitHub 面临AI编程工具冲击，欧盟人工智能法 也开始进入更细的分类指导。

下一阶段的竞争不只是模型发布，而是谁能把模型能力、安全边界、算力成本、产品入口和合规责任组合成可持续的系统。

参考链接

Qwen3.7：智能体前沿：https://qwen.ai/blog?id=qwen3.7
SenseNova U1：同时思考文本与图像的AI：https://x.com/SenseTime_AI/status/2057049434782097851
腾讯张军官宣操作系统层级 AI 助手“马维斯”正式上工，Windows、Mac、安卓端同步上线：https://www.ithome.com/0/953/096.htm
Google Stitch更新：AI设计助手实现全流程构建：https://x.com/googleaidevs/status/2057209295763300785
ChatGPT移动端支持Codex，实现跨设备协作：https://x.com/OpenAIDevs/status/2057142816497906045
Kling AI推出全球首个原生4K视频生成模型：https://x.com/Kling_ai/status/2056950317712101599
V8.1新增反向提示功能：https://x.com/midjourney/status/2057184157869199429
MiniMax语音模型新增600余种声音：https://x.com/MiniMax_AI/status/2057177048356180296
OpenClaw 2026.5.19版本发布：https://x.com/openclaw/status/2057202955581809093
Gemini 3.5 Flash登陆OpenCode平台：https://x.com/opencode/status/2057017380941795667
SpaceX与Anthropic合作提供大规模AI算力服务：https://x.com/elonmusk/status/2057228707606196434
OpenAI向所有YC创业公司提供200万美元API投资：https://x.com/gdb/status/2056948285038887255
欧盟委员会发布《欧盟人工智能法》高风险AI系统分类指导草案并开启公众咨询：https://www.dataguidance.com/news/eu-commission-publishes-draft-guidelines-classifying
投资超 600 亿美元，孙正义豪赌 OpenAI 引发内部质疑“迷信奥尔特曼如追星”：https://www.ithome.com/0/953/021.htm
Meta万人重组：裁员与AI转型并举：https://x.com/rohanpaul_ai/status/2057177976492720363
消息称微软内部示警：GitHub 面临生存级风险，AI 编程工具削弱托管必要性：https://www.ithome.com/0/952/645.htm
谷歌的人工智能正遭到操纵。这家搜索巨头正在悄然反击：https://www.bbc.com/future/article/20260519-google-tackles-attempts-to-hack-its-ai-results
Gemini与XPRIZE联合举办全球黑客松：https://x.com/googleaidevs/status/2057166550243872920
OpenAI模型证伪了离散几何中的一个核心猜想：https://openai.com/index/model-disproves-discrete-geometry-conjecture
ZCube:超大规模大模型推理的网络优化：https://www.zhipuai.cn/zh/research/160
开源油猴脚本实现多平台截图上传与内容处理：https://x.com/vista8/status/2056982823169568779
开源插件为Codex App增添高级功能：https://x.com/vista8/status/2057124658927812758
OpenRouter自动路由缓存机制说明：https://x.com/OpenRouter/status/2057128446300737702
Ramp工程师如何用Codex加速代码审查：https://openai.com/index/ramp
Prompt驱动AI生成超真实足球自拍视频：https://x.com/PixVerse_/status/2057003487716876505
Anthropic销售负责人如何利用Claude Cowork管理4000个客户账户：https://claude.com/blog/how-an-anthropic-sales-leader-uses-claude-cowork-to-run-a-4-000-account-book
生成式AI是否会沦为科技行业的“越南战争”？公众抵制能否引领AI走向更优的发展路径？：https://garymarcus.substack.com/p/could-generative-ai-could-turn-out