4月10日AI要点!AI实时生成游戏世界,再进化!世界模型Waypoint1.5!Open推出每月100美元订阅!Claude Cowork面向所有订阅用户开放

🌟

AI资讯要点

【要闻筛选】

OpenAI：推出100美元 ChatGPT Pro订阅档位，相比plus会员提供5倍codex使用量
Overworld：发布实时扩散世界模型Waypoint-1.5，可在消费级硬件上使用

🌟

其他AI资讯

【AI 创作】

Figma：推出Figma Weave（节点式工作流画布）可创建和编辑图像、视频、3D模型等内容

【AI 应用/模型】

Anthropic：Claude Cowork面向所有订阅用户开放，并上线企业管控功能
Anthropic：推出“顾问工具”（advisor tool）的新API功能，实现“模型调用性价比最优解”
Google ：Gemini 可根据用户提问，生成可自定义的交互式可视化效果（如：动态图表，3D模型）
MiniMax：发布MMX-CLI命令行工具，可调用全模态模型能力实现从资料搜集到视频制作自动化
阿里：开源VimRAG，支持图文视频混合内容的知识库检索系统

👇进群，不错过每日最新AI资讯噢~

💡主要内容

OpenAI：推出100美元 ChatGPT Pro订阅档位，相比plus会员提供5倍codex使用量

OpenAI 在现有 Go、Plus 和 200 美元 Pro 套餐之间新增 Pro 100 美元订阅，面向高强度工作者，提供更大的使用额度和高级模型访问。

用户权益：

Codex使用量：相较于现有的Plus计划，Pro档提供了5倍的Codex使用量，并且在限定时间内提供10倍的Codex使用量，以满足专业编码需求。
GPT-5.4 Pro推理：订阅用户可获得更高级的GPT-5.4 Pro模型推理能力。
无限GPT-5.3与文件上传：提供对GPT-5.3模型的无限制访问以及文件上传功能。
图像生成：享受无限次且更快速的图像生成服务。
消息限制： GPT-5.4模型每5小时可发送200-1000条本地消息；GPT-5.4-mini模型每5小时可发送600-3500条本地消息。

VV⭐使用地址：

https://chatgpt . com/zh-Hans-CN/pricing/

Overworld：发布实时扩散世界模型Waypoint-1.5，可在消费级硬件上使用

Overworld公司发布实时扩散世界模型Waypoint-1.5，这一版本延续了此前的实时生成世界理念，重点提升画面质量并降低硬件门槛，使普通游戏电脑即可体验 AI 原生世界。

双模型规格：推出 720p 和 360p 两个版本，分别面向高性能设备和更广泛的游戏电脑，使实时生成环境可以在更大范围的消费级 GPU 上运行。
训练数据大幅增加：Waypoint‑1.5 的训练数据量是上一代的近 100 倍，提升了环境生成的连贯性和动作一致性。
实时性能优化：采用更高效的视频建模技术，减少帧间冗余计算，实现最高 720p60fps 的实时世界生成

用户体验方式：

通过Overworld Biome运行时在本地设备上运行（提供简易的EXE安装程序）
通过Overworld.stream服务在浏览器中即时访问和体验，无需任何本地设置。

1.5版本与1.0版本对比：

已关注

关注

重播分享赞

视频详情

🌟项目地址：

https://over.world/blog/waypoint-1-5

🤖️AI 创作

Figma：推出Figma Weave（节点式工作流画布）可创建和编辑图像、视频、3D模型等

Figma 收购 AI 内容平台 Weavy 并推出新产品 Figma Weave（节点式工作流画布），它将AI能力融入设计流程，使用户能够直接在Figma环境中创建、编辑和组合图像、视频、3D模型等多种媒体内容，从而实现从提示词到可扩展工作流的转变。

用户可为不同 AI 模型创建节点，根据任务需要选择模型并连接节点，生成、分支、混合和优化产出，Weave支持将AI提示词转化为可扩展的工作流，例如：

图像风格融合：结合两张图片定义新的风格指南。
多比例变体生成：根据品牌风格生成不同长宽比的图像变体。
多重扭曲效果探索：对同一图像应用多种扭曲效果，快速找到最佳视觉呈现。
图像转3D模型：将任何物理参考图像转换为可自由旋转的3D模型。
视频元素合成：将动画元素合成到视频渲染中，并导出生产。

已关注

关注

重播分享赞

视频详情

⭐项目地址：

https://www.figma.com/blog/five-figma-weave-workflows/

🤖️AI 模型/应用

Anthropic：Claude Cowork面向所有订阅用户开放并上线企业管控功能

Anthropic 宣布 Claude Cowork 正式结束“研究预览”阶段，面向所有付费用户开放，并推出多项企业级管控功能。

其中企业管控功能包括：

基于角色的访问控制：企业管理员现在可以根据用户组（手动或通过SCIM）分配自定义角色，精细控制不同团队成员对Claude功能的访问权限。
团队消费限额：管理员可以在管理控制台中设置每个团队的预算，实现可预测的成本管理。
使用分析： Claude Cowork的活动数据现在可在管理仪表板和分析API中查看，管理员可以跟踪会话、活跃用户、技能和连接器调用等，以评估采用情况和优化工作流程。
扩展OpenTelemetry支持： Claude Cowork现在会发出工具和连接器调用、文件读写、技能使用等事件，并与标准SIEM管道兼容，增强了可观测性。
工具连接器控制：管理员可以限制每个MCP连接器在组织范围内的可用操作，例如只允许读取而不允许写入。

已关注

关注

重播分享赞

视频详情

⭐相关信息：

https://claude.com/blog/cowork-for-enterprise

Anthropic：推出“顾问工具”（advisor tool）的新API功能，实现“性价比最优解”

Anthropic推出名为“顾问工具”（advisor tool）的全新API功能，其核心理念是让成本较低的模型（如Sonnet或Haiku）作为执行者处理日常任务，当遇到复杂问题时，再由成本较高的模型（如Opus）作为顾问提供策略指导，从而在平衡智能与成本之间实现最优解。

工作机制：执行模型在生成过程中可调用更强大的顾问模型，顾问会读取完整对话，输出约 400‑700 字的计划或纠错建议，然后执行模型继续任务。

适用场景：适合长程代理任务（如编码代理、电脑操作、多步骤研究流程），大部分步骤由成本低的模型完成，但关键规划由高智力模型提供。

成本控制：相比直接使用高端模型，组合模式在保持质量的同时降低了总体开销；需要在请求头中加入 advisor-tool-2026-03-01 beta 标记。

模型搭配：有效的执行与顾问模型组合，例如 Sonnet + Opus、Haiku + Opus 等。

⭐阅读更多：

https://claude.com/blog/the-advisor-strategy

Google ：Gemini 可根据用户提问，生成可自定义的交互式可视化效果

Google Gemini现在能够根据用户的提问生成可自定义的交互式可视化效果，包括互动图表和3D模型，使用户能够更直观、深入地探索复杂概念，从而将文本问答转化为动态的、可操作的学习体验。

互动图表：用户可以生成各种图表，并通过调整滑块或输入精确数值来实时查看变量如何影响结果，例如模拟月球绕地球轨道的参数变化。
3D模型：能够生成3D模型，例如旋转分子结构或模拟复杂的物理系统，用户可以自由旋转和探索这些模型。

这一功能改变了以往仅限于文本和静态图表的响应模式，提供了功能性的模拟，帮助用户更好地理解所提问的主题。

该功能正在全球范围内向所有Gemini应用用户推出。用户可以在gemini.google.com上选择Pro模型，并通过“show me”或“help me visualize”等提示词来体验。

已关注

关注

重播分享赞

视频详情

⭐阅读更多：

https://blog.google/innovation-and-ai/products/gemini-app/3d-models-charts/

MiniMax：发布MMX-CLI命令行工具，调用全模态模型能力，实现从资料搜集到视频制作自动化

MiniMax发布了MMX-CLI命令行工具，这是一个专为AI Agent设计的多模态命令行工具，旨在让Agent能够更便捷地调用MiniMax的全模态模型能力，从而实现从资料搜集到视频制作等一系列自动化工作流。

仅需两行代码即可完成MMX-CLI的安装和调用。

npx skills add MiniMax-AI/cli -y -gnpm install -g mmx-cli

同时，MMX-CLI无缝接入MiniMax Token Plan，可以显示套餐用量。

要点：

全模态能力支持： Agent可以通过MMX-CLI调用MiniMax最新的编程、视频生成、语音合成、音乐创作等全模态模型，实现“资料搜集—生成文案—合成语音旁白—配图配乐—视频制作”等完整自动化工作流。

为了保障 Agent 在自动化运行中的稳定性和解析的准确性，我们在 MMX-CLI 的底层设计上做了针对Agent友好型优化：

输出隔离与纯数据模式：将进度条、模型状态等人类友好的提示信息输出到stderr，而stdout仅输出干净的文件路径或JSON数据，确保Agent获取的结果纯净，易于解析。支持--quiet和--output json彻底切断交互式界面。
语义化状态码：失败时返回数字代号，Agent无需阅读英文报错即可判断错误类型并决定是否重试，支持鉴权失败、参数错误、超时、网络异常等独立退出码。
非阻塞与异步任务控制：参数不全时直接退出，避免任务卡死；长耗时任务支持--async一键转后台，满足Agent并行处理多任务的需求。

⭐阅读更多：

https://mp.weixin.qq.com/s/d067bWUdhqYwvfehoYKtVw

阿里：开源VimRAG，支持图文视频混合内容的知识库检索系统

阿里巴巴通义实验室正式开源了VimRAG项目，这是一个创新的多模态知识库检索系统，能够高效处理图文视频混合内容，并实现跨模态的信息提取与问答，为企业级知识助手的构建提供了坚实的基础设施。

VimRAG旨在解决传统RAG（检索增强生成）系统在处理多模态长上下文任务时的局限性，通过“结构化记忆”机制，让AI能够像人类一样理解和利用混合模态信息。

亮点：

动态记忆图：引入动态记忆图，使检索过程可回溯、可试错，提高了检索的准确性和灵活性。
视觉能量分配：智能分配视觉处理资源，实现“该省省，该花花”的效率优化，确保关键视觉信息的有效利用。
图引导优化：通过图结构引导模型学习“记重点”，提升了模型在复杂多模态数据中提取核心信息的能力。

⭐项目地址：

https://bailian.console.aliyun.com/cn-beijing/?tab=app#/knowledge-basevhttps://github.com/Alibaba-NLP/VRAG

⚠️部分内容由AI生成，可能存在偏差

💗有任何疑问，请提前联系邮箱：alolg@163.com