
AI前沿日报 06.02-06.03|Meta把AI客服推向WhatsApp,OpenAI让Codex变成企业工作台
01 今日速览
OpenAI 发布 Codex 新版本,新增角色插件、Sites 和 annotations。Codex 不再只服务开发者,而是开始覆盖分析师、市场、销售、设计、投资和投行等岗位。OpenAI 披露,Codex 每周用户超过 500 万,非开发者约占 20%,增长速度是开发者的 3 倍以上。
Meta 将 Business Agent 推向全球 WhatsApp Business,并扩展到 Instagram DM。它可以回答客户问题、推荐产品、预约服务、筛选销售线索,并在复杂问题时转给人工。Meta 也在测试夜间聊天日报和客户洞察,把消息应用从客服入口改造成小商家的经营工具。
Microsoft 在 Build 2026 发布 Scout、Project Solara 和 Agent Control Specification。Scout 是常驻型办公 Agent,接入 Teams、Outlook 等工作流;Solara 是面向 AI 设备的系统平台;ACS 则把 Agent 的权限、审批、日志和拦截点写进可移植策略文件。
The Verge 实测 Google Gemini Spark。Spark 可以读取 Gmail、Docs、Calendar 等 Google 生态上下文,完成旅行规划、整理未完成任务、生成退订链接等操作;但在 Airbnb 预订这类涉及登录、支付和外部网站安全策略的任务上会被挡住。它把个人 Agent 的能力边界讲得很清楚:能读上下文,不等于能完成所有动作。
Coralogix 完成 2 亿美元融资,押注 AI Agent 生产环境监控。Agent 进入真实系统后,不只要看模型输出,还要看工具调用、失败链路、权限变化、异常行为和运行成本。可观测性正在从传统软件监控,扩展到 Agent 行为监控。
国内方面,媒体报道称微信正在测试 AI 智能体,可能接入小程序等能力;腾讯人士回应目前无法确定发布时间,微信 14 亿级用户体量意味着合规流程会更严格。微信如果上线 Agent,产品入口不是一个新 App,而是直接进入聊天、小程序、支付、视频号和公众号生态。
快手旗下可灵 AI 被曝正在进行分拆以来首轮融资,投前估值约 180 亿美元。可灵此前一季度收入已超过 6.5 亿元,AI 视频产品正在从模型效果竞争,进入商业化和资本化阶段。
02 海外新产品 / 新业态
1. Codex:从代码工具变成企业工作台
OpenAI 发布 Codex 新版本,新增三类能力:角色插件、Sites 和 annotations。Codex 原来更像一个开发者工具,帮人写代码、改代码、跑工程任务;现在开始变成企业里的通用工作台。
角色插件是这次最清晰的产品变化。OpenAI 首批推出数据分析、创意生产、产品设计、销售、公开市场投资、投行业务等插件。每个插件都打包了对应岗位常用的应用、skills、指令和工作流。比如数据分析插件接 Snowflake、Databricks、Hex、Tableau;销售插件接 Salesforce、HubSpot、Slack、Outreach、Clay;创意生产插件接 Figma、Canva、Shutterstock、Picsart、Fal。
这类插件不是简单“多接几个工具”。它把 Codex 从“一个会写代码的模型”改成“一个会进入岗位流程的执行器”。分析师要做报表,销售要更新客户记录,市场要生成广告素材,投资人要整理财报和市场信号。每个岗位需要的上下文、工具和输出格式都不同,插件把这些差异预先封装起来。
Sites 是另一个产品层变化。Codex 可以把用户的想法、分析和计划转成可分享的互动网页或轻量应用。比如客户复盘页、项目进度板、财务情景规划器、发布会信息中心。这不是传统文档,也不是一次性聊天结果,而是一个可以持续更新、被团队共享的工作空间。
Annotations 解决的是 AI 产出后的修改问题。过去用户让 AI 生成文档、网页、幻灯片,后续修改经常要重新描述一遍。现在用户可以点中导航栏、图表、某句结论、某个页面区域,直接要求 Codex 修改这一部分。它把“重新生成”变成了“局部编辑”。
Codex 这次的产品路线很明确:不要只停在写代码,而是吃掉企业知识工作的中间产物。企业里的大量工作不是最终报告,而是仪表盘、客户复盘、项目页、会议材料、投研表格、销售跟进、创意 brief。Codex 想把这些中间产物变成可生成、可分享、可迭代的对象。
产品限制也很清楚。岗位插件能提高上手速度,但企业真正上线还要处理权限、数据边界、工具连接、审计和团队习惯。Codex 能生成一个客户复盘站点,不代表它默认有权读取所有客户数据。插件生态越丰富,权限设计越要细。
2. Meta Business Agent:WhatsApp开始从消息工具变成小商家前台
Meta 将 Business Agent 推向全球 WhatsApp Business,并扩展到 Instagram DM。这个 Agent 可以回答客户问题、推荐产品、预约服务、筛选销售线索,并在复杂问题时转给人工。Meta 还在测试夜间聊天日报和洞察,让商家第二天看到客户咨询、未处理需求和销售机会。
WhatsApp 的产品位置很特殊。很多国家的小商家不是先建网站,也不是先上 CRM,而是直接用 WhatsApp 接订单、回消息、发图片、确认价格。Meta 把 Agent 放进 WhatsApp Business,相当于把 AI 客服、导购和销售助理放进了现成的商业聊天入口。
这个产品形态和传统客服机器人不一样。传统客服机器人常常挂在网站右下角,用户要主动打开页面;WhatsApp Business Agent 出现在用户已经习惯发消息的地方。用户问“这双鞋还有 38 码吗”“明天下午能预约吗”“这个套餐适合孩子吗”,Agent 可以直接在对话里回答、推荐、转人工或推进预约。
Meta 还计划让大企业创建自定义 Agent,并连接 Shopify、Zendesk、Shopee 等系统。这里的关键是后端系统连接。一个 Agent 如果只能回答 FAQ,价值有限;如果能查库存、查订单、改预约、创建工单、同步 CRM,才会变成业务工具。
定价也在变。Meta 计划把小商家的 Agent 放进部分 WhatsApp Business Premium 订阅层级,大企业则可能按 token 用量付费。这意味着消息平台的 AI 商业化不只靠广告,而是开始向“自动化经营工具”收费。
产品边界在隐私和加密。商业 AI 消息如果不再完全端到端加密,商家和用户需要知道哪些内容会被模型读取、是否用于训练、什么情况下转人工。消息入口的信任成本比普通网页更高,因为用户在聊天里说的往往是地址、订单、付款和个人信息。
3. Microsoft Scout:办公Agent开始从“被问才答”变成“常驻同事”
Microsoft 在 Build 2026 推出 Scout。它是一个面向工作的常驻型个人 Agent,基于 OpenClaw 和 Work IQ,接入 Teams、Outlook 等工具,目标是提前处理会议准备、日程调整、邮件回复和日常事务。
Scout 和传统 Copilot 的区别在于“常驻”。Copilot 更像嵌在 Office 里的助手,用户问一句,它帮忙写一段或总结一份文档。Scout 更像一个持续运行的工作代理:它知道你的日程、邮件、Teams 对话和工作习惯,能在没有每次明确提示的情况下提前准备材料、提醒冲突、处理任务。
这种产品形态会改变办公软件的交互。过去用户打开 Outlook 看邮件,打开 Teams 看消息,打开 Calendar 看日程,自己决定下一步。Scout 试图把这些碎片整合成任务流:明天要开会,先找到相关邮件和文档;日程冲突,先建议调整;会前缺资料,先整理摘要。
Microsoft 把 Scout 放在 Frontier 客户和有限测试里,说明这个产品还不是全员可用的成熟功能。常驻 Agent 的难点不在“能不能写邮件”,而在“什么时候该插手”。它如果过于主动,会打扰用户;如果太保守,又像普通助手。产品需要让用户设定边界:哪些任务能自动处理,哪些必须确认,哪些上下文不能读取。
Scout 还把 OpenClaw 带进 Microsoft 体系。开源 Agent 框架进入大厂办公产品后,企业会更关心安全沙箱、权限、日志、合规和可控执行。办公 Agent 如果想成为“同事”,首先要遵守办公室规矩。
4. Project Solara:Microsoft给AI设备做一套Agent系统
Microsoft 同时发布 Project Solara,这是一个面向 AI Agent 设备的系统平台,底层基于 Android,而不是 Windows。Build 展示了两个概念设备:一个类似桌面屏幕,通过人脸识别解锁并访问 Agent;另一个像工牌,带摄像头和指纹传感器,可以录制并转写对话,也可以让 Agent 看到用户看到的内容。
Solara 的产品假设是:未来不止手机和电脑需要运行 Agent,小型、低功耗、专用 AI 设备也需要一套系统。普通 Android 或 Windows 不是为这种设备设计的。Agent 设备需要处理摄像头、麦克风、身份识别、企业管理、安全策略、后台任务和跨服务调用。
工牌形态最有意思。它不是消费电子,而是工作场景设备。员工在会议、仓库、门店、医院、工厂里佩戴,Agent 可以记录对话、识别环境、提醒任务、生成纪要。这个入口比手机更贴身,也比桌面软件更靠近现场。
产品风险也在这里。一个能看、能听、能记录的工牌,必须解决隐私提示、录制许可、数据保留、企业审计和个人边界。它能提高工作记录效率,也可能变成一个全天候监控设备。AI 硬件的产品设计不能只看功能,还要设计“什么时候不工作”。
Microsoft 目前不打算直接销售这两个概念设备,而是把它们作为参考设计,供硬件伙伴试点。AccuWeather、Best Buy、CVS Healthcare、Target 等公司计划开始试点。Solara 更像一个信号:AI 设备会从“炫酷硬件”转向企业场景里的专用终端。
03 新技术 / 技术底座
1. Agent Control Specification:把Agent权限写成可移植策略文件
Microsoft 发布 Agent Control Specification,简称 ACS。它是一个开放规范,用来在 Agent 执行任务的不同阶段施加治理控制。开发、安全和合规团队可以用策略文件定义 Agent 能做什么、不能做什么、什么时候需要人类批准、哪些证据要记录下来。
现在很多 Agent 控制方式很分散。有人把规则写进 system prompt,有人在应用代码里加检查,有人用分类器拦截输入输出。这些方法能用,但很难审计,也很难在不同框架、不同工具、不同部署环境里复用。
ACS 的做法是把控制规则从应用代码里抽出来,变成可移植的 manifest。它可以在多个拦截点检查 Agent 行为:接收输入前,调用工具前,工具返回后,最终回复前。策略可以允许、阻止、脱敏,也可以要求人类批准。
这解决的是 Agent 产品进入生产环境后的基本问题。聊天机器人最主要的风险在回答,Agent 的风险在动作。它可能读文件、发邮件、改数据库、调用外部 API、提交代码、处理客户资料。权限如果只靠一句“不要做危险事情”的提示词,生产系统很难接受。
ACS 的产品价值在于让企业把 Agent 管起来。比如销售 Agent 可以查 CRM,但不能导出全部客户;财务 Agent 可以生成报表,但付款必须人工确认;代码 Agent 可以开 PR,但不能直接合并主分支;客服 Agent 可以处理退货,但超过金额上限要转人工。
2. Coralogix:Agent运行后,需要一套行为监控层
Coralogix 完成 2 亿美元融资,定位是给 AI Agent 时代做监控、排障和管理。传统软件监控看的是日志、指标、异常、调用链;Agent 监控还要看模型为什么这样行动、调用了哪些工具、在哪一步失败、是否越权、成本消耗在哪里。
Agent 进入生产环境后,故障不会只表现为服务宕机。它可能表现为错误调用工具、重复执行任务、读错上下文、生成错误工单、把问题升级给错误团队,或者在多步任务里越走越偏。传统监控系统很难直接解释这些行为。
这类产品的需求来自 Agent 的不确定性。普通软件按代码路径执行,出了问题可以查日志;Agent 会根据上下文动态决策,错误可能发生在提示词、检索、工具调用、记忆、权限、模型输出、外部 API 中任何一层。企业需要看到完整轨迹,而不是只看到最终结果。
Agent 监控产品可能会长成几个模块:任务轨迹记录、工具调用审计、异常行为检测、成本归因、失败复盘、人工接管、权限告警。它和 ACS 这类治理规范会互补:ACS 负责定义能不能做,监控层负责记录它到底做了什么。
3. MAI-Thinking-1:Microsoft开始用中型推理模型服务企业场景
Microsoft 发布 MAI-Thinking-1,这是它自研的旗舰推理模型。公开信息显示,它是 35B active 的 MoE 模型,总参数约 1T,面向数学、代码和企业任务,并强调较小推理 footprint。MoE 可以理解成“专家混合模型”:模型整体很大,但每次处理一个 token 时只激活部分专家,从而降低推理成本。
这类模型不一定追求在所有榜单上超过最大前沿模型。它更像企业可部署模型:成本更低,延迟更可控,可以用于日常代码、办公、数据分析和企业流程。企业场景里,不是所有任务都需要最强模型。大量任务需要稳定、便宜、可集成。
Microsoft 同时发布 MAI-Code、MAI-Image、MAI-Voice、MAI-Transcribe 等模型,形成一组自研模型矩阵。它的产品目标不是只做聊天模型,而是把模型塞进 Copilot、Scout、Windows、Teams、Azure 和开发工具里。
对企业产品来说,模型能力只是组件。真正的产品体验来自模型、权限、数据、办公入口和治理工具的组合。MAI-Thinking-1 的看点不在“Microsoft 也有一个模型”,而在它能不能降低 Microsoft 自家办公 Agent 和开发工具的单位成本。
04 产品拆解 / 交互观察
1. Gemini Spark实测:个人Agent的上限和边界都在Google账户里
The Verge 实测 Google Gemini Spark。它能读取 Gmail、Docs、Calendar 等 Google 生态数据,帮助用户整理退订链接、找出未完成任务、做旅行规划。用户没有明确提供的一些家庭信息、偏好和日程,也会被 Spark 从账户上下文中推断出来。
Spark 的产品能力来自 Google 账户里的长期上下文。邮箱里有订票信息,日历里有安排,Docs 里有未完成任务,搜索和地图里有兴趣偏好。个人 Agent 如果能把这些数据串起来,确实比普通聊天机器人更像助手。
旅行规划是一个典型例子。普通 AI 旅行规划通常只能给出热门景点和通用路线。Spark 能结合用户家庭成员、孩子年龄、邮件里的票务信息、日程和饮食偏好,生成更贴近真实生活的计划。这不是模型突然更懂旅行,而是它拿到了更完整的用户上下文。
失败也很典型。实测里,Spark 在 Airbnb 预订任务上被安全和认证策略挡住,无法登录、处理付款或完成预订。它只能提供可选房源和预订提醒。这说明个人 Agent 的边界在权限、支付和外部网站策略上。能读 Gmail,不等于能替用户完成交易。
Spark 把个人 Agent 的产品矛盾放大了:越有用,越需要读取更多私人数据;越能行动,越需要更清楚的授权和确认。它的体验会很强,但信任成本也高。个人 Agent 的产品竞争,不只是模型和界面,而是谁能让用户放心把数字生活交出去一部分。
2. 微信AI智能体传闻:超级App里的Agent入口会比独立App更敏感
媒体报道称微信正在测试 AI 智能体,可能接入小程序等生态,并计划最快在 6 月推进公开上线前的合规流程。腾讯人士回应称,目前无法确定微信 AI 智能体何时推出,微信 14 亿级用户体量会让合规流程更严格。
这条消息不能当作正式发布,但它揭示了一个产品问题:超级 App 里的 Agent 和独立 AI App 完全不是一个量级。独立 AI App 需要重新获取用户、连接工具、建立场景;微信本身已经有聊天、小程序、支付、公众号、视频号、企业微信和服务通知。
如果微信 Agent 真正上线,它的产品切口不一定是“问答助手”,而是把已有生态里的动作串起来。比如在聊天里理解需求,跳转小程序完成服务,使用支付完成交易,调用公众号内容作为知识源,给商家或用户生成后续提醒。
但超级 App 的权限问题也更重。微信里有社交关系、支付、聊天记录、身份、交易和内容入口。Agent 如果能跨这些模块行动,必须先解决数据隔离、用户授权、任务确认和监管审批。小用户量产品可以边试边改,微信不能这样做。
独立 AI 产品经常从功能出发,超级 App 的 Agent 必须从边界出发。它先要明确不能做什么,才能决定能做什么。
3. Meta与微信的差异:一个从商家消息切入,一个可能从超级生态切入
Meta Business Agent 和微信 AI 智能体传闻放在一起看,是两种完全不同的入口。
Meta 先从 WhatsApp Business 和 Instagram DM 切入,任务更清楚:回答客户、推荐产品、预约服务、筛选销售线索。它面对的是商家经营场景,用户问题比较高频,结果也容易验证。客户有没有预约成功、订单有没有推进、销售线索有没有转化,都是清楚指标。
微信如果做 Agent,入口会更复杂。它既可以服务个人,也可以服务商家;既有聊天关系,也有小程序服务;既有内容,也有支付。它的潜在能力更大,但产品边界也更难画。一个微信 Agent 可以从“帮我找附近服务”一路走到“打开小程序、下单、付款、通知对方”,每一步都需要权限和确认。
这两种产品路线对应不同商业模式。Meta 更像把 AI 变成商家付费工具,先解决客服和销售;微信更可能把 Agent 融进生态基础设施,逐步连接小程序、支付和内容。前者更快商业化,后者一旦跑通,入口更深。
05 开发者生态 / 开源项目
1. Codex插件生态:岗位工作流开始产品化
OpenAI 的角色插件首批覆盖数据分析、创意生产、产品设计、销售、公开市场投资和投行业务。每个插件不是一个单点功能,而是一组应用连接、skills、指令和工作流。
这里的产品变化是:知识工作不再按“文件类型”组织,而是按“岗位任务”组织。过去软件是按工具分工:表格归 Excel,设计归 Figma,客户归 Salesforce,文档归 Docs。Codex 插件试图按任务重组:销售准备会议,需要 CRM、邮件、Slack、销售话术;投资人分析公司,需要财报、市场数据、估值模型和结论页。
这类插件会改变 AI 产品的交付方式。一个通用 Agent 很难直接适配所有公司;但一个岗位插件可以给出默认工作流,再允许团队修改。它更像“行业模板 + 工具连接 + AI 执行器”。
插件生态的限制在于工具连接深度。只读数据和真正写回业务系统是两件事。销售插件如果只能整理客户信息,价值有限;如果能更新 CRM、创建 follow-up、识别高风险交易,就会触碰权限和责任边界。插件越接近真实流程,越需要管理员控制底层应用权限。
2. Microsoft ACS和Coralogix把Agent产品推向“可治理、可监控”
ACS 和 Coralogix 代表的是 Agent 产品的后端化。前台用户看到的是 Agent 完成任务,后台需要策略、日志、监控、告警、审批、回放和成本核算。
这和过去聊天机器人的产品架构不同。聊天机器人只要管理输入输出,Agent 要管理整个任务过程。它会跨系统行动,会在后台持续运行,会接触业务数据,会触发真实后果。企业不可能只看最终回答。
一个生产级 Agent 产品至少需要几层基础设施:权限层决定能做什么;策略层决定什么时候审批;观察层记录做过什么;评估层判断做得怎么样;接管层让人类随时介入;成本层显示花了多少 token 和工具调用。
产品机会会出现在这些“看不见但必须有”的层。Agent 越进入真实业务,越需要类似 ACS、Coralogix 这样的控制和监控系统。没有治理和监控,Agent 很难从 demo 进入企业生产环境。
06 国内 AI 动态
1. 可灵AI被曝分拆后首轮融资,AI视频产品进入独立资本周期
财联社报道称,快手旗下视频生成大模型业务可灵 AI 正在进行分拆以来的首轮融资,投前估值约 180 亿美元。这是可灵 AI 的 Pre-IPO 轮融资。此前快手已披露,可灵 AI 一季度收入超过 6.5 亿元,3 月 ARR 接近 5 亿美元。
这条消息的产品含义比估值更值得看。AI 视频产品开始从大厂内部创新业务,变成可以独立融资、独立估值、独立面向资本市场讲增长的业务。它不再只是“快手做了一个视频模型”,而是一个独立内容生产工具和平台。
可灵的收入基础来自创作者、广告、电商、内容生产团队的持续付费。AI 视频如果只能做 demo,很难支撑这种估值;真正能支撑商业化的是稳定生成、批量生产、编辑控制、素材管理、版权合规和场景分发。
AI 视频赛道下一步会从“模型效果”转向“生产系统”。广告素材、电商短视频、短剧分镜、游戏资产、教育视频都会需要不同工作流。单独的视频生成模型会被平台压价,能接入行业流程的产品才更容易留住客户。
2. 武汉计划培育150个行业智能体产品,地方软件公司开始转型AI应用服务商
武汉市提出,2026 年将培育 150 个优秀行业智能体产品,打造 10 个国内知名垂类大模型,引导 100 家深耕垂直行业的软件系统集成商向人工智能应用服务商转型。
这条不是普通政策口号,里面有一个很具体的产业变化:传统软件系统集成商正在被推向 AI 应用服务商。过去它们帮客户做系统实施、定制开发、接口对接;现在要把大模型、智能体、AI 辅助开发、智能审批、智能运维嵌进原有软件业务。
行业智能体产品不会从零开始长出来。它往往基于原来的行业软件和客户流程:医院导诊、制造排产、政务审批、园区运维、客服工单、财务对账。系统集成商原本就知道客户流程、接口和历史系统,转型做智能体比纯模型公司更接近交付现场。
这个方向的难点也在交付。行业智能体不是给客户一个聊天框,而是要接数据库、接权限、接业务系统、接报表、接审批流,还要能解释错误和留痕。真正的产品竞争会发生在“模型懂不懂业务流程”上,而不是“模型回答是否流畅”。
3. AI智能体榜单从技术指标转向应用价值和安全可控
6 月 2 日,北京网络安全大会上公布了 2026 中国 AI 智能体领航者榜单。来自 20 多个行业、100 多家企业提交案例,评审重点不只看技术指标,而是强调应用价值、安全可控、真实业务落地和持续运行能力。
这类榜单本身不用过度放大,但评审口径的变化有意义。智能体评估开始从“能力展示”转向“能不能在业务里持续运行”。一个 Agent demo 可以很漂亮,但如果不能控权限、不能留日志、不能稳定执行、不能处理失败,就很难进入企业。
安全和权限成为评审权重,也说明行业已经意识到 Agent 和普通模型不同。普通模型输出错了,最多是内容问题;Agent 可能调用工具、访问数据、改业务状态。它的评估必须看动作链路。
行业智能体接下来会越来越像企业软件:看部署、看使用率、看故障率、看权限、看客户续费,而不只是看模型回答。真正的产品化,会把智能体从“演示能力”拉回“交付能力”。
夜雨聆风