📌 今日重点
1✨ BAGEN研究揭示LLM Agent预算感知失效:成功率与预估相关性仅0.35,系统性低估成常态数据洞察其他
Northwestern、Stanford等机构联合发布BAGEN研究,评估GPT-5.2、Claude Opus 4.7等主流模型在Sokoban等四环境的渐进式预算估计能力。结果显示,模型成功率与预估质量相关性极低(r≈0.35),20个组合中17个存在系统性低估。尽管在预算耗尽60%时仍有超70%的判定可行,但早期输出“impossible”可节省28%-64% Token且成功率仅微降1.6-4.2个百分点。该发现直击企业AI成本痛点,如Uber曾4个月烧光全年Claude Code预算,凸显优化Agent预算感知机制对控制巨额API开销的关键价值。(机器之心)[查看详情]
2✨ 阶跃星辰Step 3.7 Flash:以409 tokens/s吞吐与7.1秒端到端延迟领跑主流模型效率评测数据洞察阶跃星辰
阶跃星辰发布Step 3.7 Flash模型,在Artificial Analysis第三方基准测试中表现优异。该模型以409 tokens/s的输出速度位列主流模型第一,端到端响应时长压缩至7.1秒,显著优于竞品。评测覆盖通用问答、搜索、代码生成、多模态理解及Agent工作流等核心场景,结果显示Step 3.7 Flash在“智能-速度”平衡及“速度-价格”性价比维度均处于最具吸引力象限。作为专为生产环境设计的Flash层模型,其旨在兼顾高智能、低延迟与低成本,具备成为企业默认执行模型的潜力。(阶跃星辰)[查看详情]
3✨ 腾讯AI战略转向企业级生产力:CodeBuddy赋能90%工程师,云业务首获全年盈利行业洞察
腾讯一季度AI资本支出占经营现金流35%,战略重心向企业级生产力倾斜。其AI编程助手CodeBuddy已覆盖腾讯内部90%工程师,显著提升编码效率,平均缩短开发时间40%。与此同时,腾讯云在2025年首次实现全年规模盈利,标志着商业化路径的成熟。首席AI科学家姚顺雨指出,AI下半场的核心在于定义高价值问题,模型与产品团队正通过Co-Design协同模式深化落地应用。(虎嗅APP)[查看详情]
4✨ Google DeepMind 发布 Gemma 4 QAT 权重及移动端新量化格式技术迭代
Google DeepMind 正式开源 Gemma 4 量化感知训练(QAT)检查点,并推出面向移动端的新型量化格式。该方案结合定向 2-bit 压缩技术,将 Gemma 4 E2B 模型的内存占用显著降低至约 1GB,大幅优化了端侧部署效率。目前相关模型权重已上线 Hugging Face,并兼容多种主流工具链,为移动端大模型的高效推理提供了新的技术路径。(Google)
5✨ OpenAI 启动史上最大规模重构:ChatGPT 向“超级智能体”转型产品动态OpenAI
OpenAI 正对 ChatGPT 实施自发布以来最彻底的产品重构,旨在将其从单一对话机器人升级为集成编程工具与多模态 AI 代理的“超级应用”。此次改版将重新设计交互界面,显著提升 Codex 代码生成能力,并增加多样化应用入口,以支撑其打造全场景个人智能体的长期战略。与此同时,为加速 IPO 进程及提升营收,OpenAI 正将资源重心向高价值企业客户倾斜,并同步进行了内部组织架构调整,标志着其商业化路径从技术探索向规模化变现的关键转折。(AIPulse)
▪ OpenAI
1✨ OpenAI 启动史上最大规模重构:ChatGPT 向“超级智能体”转型产品动态OpenAI
OpenAI 正对 ChatGPT 实施自发布以来最彻底的产品重构,旨在将其从单一对话机器人升级为集成编程工具与多模态 AI 代理的“超级应用”。此次改版将重新设计交互界面,显著提升 Codex 代码生成能力,并增加多样化应用入口,以支撑其打造全场景个人智能体的长期战略。与此同时,为加速 IPO 进程及提升营收,OpenAI 正将资源重心向高价值企业客户倾斜,并同步进行了内部组织架构调整,标志着其商业化路径从技术探索向规模化变现的关键转折。(AIPulse)
2ChatGPT Web端Writing Blocks集成邮件直发功能,闭环工作流再升级技术迭代OpenAI
OpenAI近日宣布,ChatGPT Web平台的Writing Blocks功能已集成邮件直接发送能力。用户可在AI对话界面内完成邮件的起草、润色及发送,无需切换至外部邮件客户端。此举旨在进一步打通内容创作与分发的链路,减少上下文切换成本,提升用户在Web端的工作流效率,标志着ChatGPT正从单纯的对话工具向综合性生产力平台演进。(AIPulse)
3OpenAI Codex 升级:引入设置搜索与状态持久化,优化开发者工作流技术迭代
OpenAI 近期对 Codex 应用进行了功能迭代,重点提升了开发者在复杂项目中的操作效率。新版更新包括在设置面板中新增带分类结果的搜索功能,便于快速定位配置项;支持全屏模式下侧边栏聊天窗口的可见性,改善多任务处理体验。此外,系统实现了工作状态的自动保存与恢复,重启应用后可自动还原提示词草稿及工作树上下文,显著降低了上下文丢失风险,增强了代码生成场景下的连续性与稳定性。(X)
▪ Google
1✨ Google DeepMind 发布 Gemma 4 QAT 权重及移动端新量化格式技术迭代
Google DeepMind 正式开源 Gemma 4 量化感知训练(QAT)检查点,并推出面向移动端的新型量化格式。该方案结合定向 2-bit 压缩技术,将 Gemma 4 E2B 模型的内存占用显著降低至约 1GB,大幅优化了端侧部署效率。目前相关模型权重已上线 Hugging Face,并兼容多种主流工具链,为移动端大模型的高效推理提供了新的技术路径。(Google)
2Google 2026年5月AI全景:Gemini 3.5与Omni视频模型落地,量子生命科学获千万美元注资产品动态
Google于2026年5月发布全面AI产品矩阵更新,核心聚焦于Gemini 3.5系列与原生多模态视频模型Gemini Omni的商用部署。搜索体验迎来“25年来最大升级”,引入24/7信息代理、Antigravity技术及生成式UI,并整合Universal Cart构建跨平台购物枢纽。硬件端推出Fitbit Air微型追踪器及重构的Googlebook笔记本,强化端侧AI能力。此外,AlphaEvolve拓展至物流与芯片设计,REPLIQA计划投入1000万美元联合五所高校开展量子生命科学前沿研究,标志着Google在通用人工智能与硬科技融合领域的深度布局。(Google AI Blog)
3苹果WWDC 2026前瞻:库克谢幕之作,Siri底层架构引入Gemini重构数据洞察苹果
在蒂姆·库克任期尾声,苹果将于WWDC 2026发布其最具战略意义的AI转型方案。为扭转此前在生成式AI领域的滞后局面,苹果已完成内部管理层重组,并与Google达成深度战略合作。新版Siri将全面接入Google Gemini大模型及Google Cloud基础设施,彻底替换原有技术方案。此举标志着苹果从封闭生态向开放合作的关键转折,旨在通过引入业界领先的生成式能力,重塑其智能助手体验,以应对日益激烈的AI市场竞争。(AIBase)
▪ Anthropic
1Anthropic Claude Mythos 5 模型 API 误现即撤,未发布版本引发市场猜测技术迭代
近日,Anthropic 旗下未发布模型 Claude Mythos 5 在 API 及开发者模式中短暂暴露,随即被官方迅速撤下。这一技术层面的意外泄露引发了行业对 Anthropic 下一代大模型发布节奏的密切关注。尽管官方尚未对此作出正式回应,但此次事件侧面反映了 Anthropic 在模型迭代上的加速态势。目前,该模型的具体性能指标及商业化时间表仍属未知,市场需保持理性观察,等待官方进一步的技术披露。(X)
2Anthropic 获 350 亿美元债务融资,加速 AI 芯片基础设施扩张商业动态
Apollo Global Management 与 Blackstone 联合为 Anthropic 敲定 350 亿美元债务融资方案,资金将专项用于扩充 AI 基础设施。此举标志着 AI 算力竞赛进入资本密集新阶段,旨在解决高端 AI 芯片采购瓶颈。该巨额融资不仅强化了 Anthropic 的硬件储备,也反映出头部模型厂商在算力军备竞赛中面临的巨大资本压力与战略投入决心。(Bloomberg/Tech)
3Anthropic:Claude 已生成超 90% 自身代码,呼吁建立全球 AI 发展“暂停”机制商业动态
Anthropic 披露内部数据,显示其大模型 Claude 已深度介入自身研发流程,目前生成超过 90% 的生产代码,工程师日均交付量较 2024 年提升八倍。这一“AI 辅助 AI 开发”的范式显著加速了模型迭代。鉴于自我改进可能带来的指数级风险,Anthropic 正式倡议建立可验证的全球 AI 发展暂停选项,并承诺若其他前沿实验室同步采取该行动,将主动停止自身研发进程,以应对潜在的系统性安全挑战。(The Decoder)
▪ Meta
1Meta拟数十亿美元增发股票,为AI长期投资输血商业动态
据英国《金融时报》报道,继Alphabet成功完成850亿美元股权融资后,Meta Platforms Inc. 正评估启动规模达数十亿美元的股票增发计划。此举旨在为人工智能等长期战略投资补充关键资金。消息传出后,市场反应迅速,Meta股价应声下跌,反映出投资者对股权稀释及资本支出压力的担忧。(Bloomberg/Tech)
2高盛与Meta前高管联手,深耕非洲及中东语音AI蓝海市场产品动态其他
由前高盛与Meta高管创立的初创企业,正致力于构建针对非洲及中东市场的本土化语音AI技术栈。该方案旨在填补被主流科技巨头忽视的区域性市场空白,通过自研底层技术实现高效本地适配。目前,该平台日均处理通话量已突破17,000通,验证了其在特定细分领域的商业可行性与技术落地能力,为区域性AI基础设施提供了新的竞争范式。(TechCrunch/Artificial Intelligence)
▪ 字节跳动
1剪映首发Seedance 2.0:提速降本,重塑AIGC视频生成门槛技术迭代字节跳动
字节跳动旗下剪映官方宣布,将于本月15日正式上线Seedance 2.0系列视频生成模型。相较于前代产品,该模型在推理速度与成本控制上实现显著优化,旨在降低AIGC视频创作的技术与资金门槛。首发期间,官方将提供专项折扣优惠。此举标志着字节跳动在垂直领域大模型商业化落地上的进一步加速,有望通过提升性价比加速AI视频工具在专业及大众市场的渗透。(AIPulse)
2豆包AI误判野生蘑菇致中毒?团队回应:模型仍处发展阶段,高风险场景需人工复核产品动态
针对用户因使用豆包APP识别野生蘑菇疑似中毒一事,火山引擎豆包团队已介入核实。数据显示,尽管系统识别结果为“鸡腿菇”,但同步输出了关于易与剧毒大青褶伞混淆的高风险预警。团队强调,当前大模型视觉识别能力仍在迭代优化中,并非绝对准确。行业专家指出,在涉及食品安全的高风险垂直场景中,AI输出仅具参考性质,不具备最终决策效力。公众应严格遵循“不采食、不购买、不食用”野生菌类原则,避免过度依赖算法判断。(AIBase)
▪ 阿里巴巴
1阿里AI技术突破,直逼美国科技巨头
据彭博社分析,阿里巴巴最新AI创新有望显著提振其云计算业务,该板块一直是公司营收增长的核心引擎。业内专家评估认为,此项技术突破不仅将强化阿里云的市场竞争力,更可能在底层算法与算力效率上缩小与美国科技巨头的差距,对全球AI基础设施格局产生深远影响。(Tavily Discovery)
▪ 腾讯
1✨ 腾讯AI战略转向企业级生产力:CodeBuddy赋能90%工程师,云业务首获全年盈利行业洞察
腾讯一季度AI资本支出占经营现金流35%,战略重心向企业级生产力倾斜。其AI编程助手CodeBuddy已覆盖腾讯内部90%工程师,显著提升编码效率,平均缩短开发时间40%。与此同时,腾讯云在2025年首次实现全年规模盈利,标志着商业化路径的成熟。首席AI科学家姚顺雨指出,AI下半场的核心在于定义高价值问题,模型与产品团队正通过Co-Design协同模式深化落地应用。(虎嗅APP)[查看详情]
2腾讯云ADP 4.0发布:Claw模式重构智能体开发流,实现“一句话生成、一键部署”产品动态
在2026腾讯云AI产业应用大会上,腾讯云正式发布企业级智能体开发平台ADP 4.0,核心升级在于引入支持Agentic Loop机制的“Claw模式”。该模式通过自然语言驱动,自动完成提示词生成、知识库挂载及工作流编排,显著降低长链路复杂智能体的构建门槛。平台同步打通近40个高频业务系统Connector,升级150+工具Skills广场,并原生支持MCP协议,覆盖智能体从构建、连接、分发到治理的全生命周期,旨在通过强化企业级安全治理能力,加速智能体规模化产业落地。(AIBase)
▪ 其余重点关注
1微信开放平台内测AI生态接入能力,开发者可自主授权管理产品动态
微信开放平台近期推出AI生态接入能力,允许开发者在小程序管理后台的AI能力面板中主动授权接入。平台提供“自动模式”与“开发模式”两种选项,支持同时开启,目前处于内测阶段。该功能旨在降低AI集成门槛,赋予开发者更灵活的控制权。接入与否不影响现有小程序服务运行,标志着微信在构建AI原生应用生态方面迈出实质性一步,为后续大规模商业化落地奠定基础。(财联社AI daily)[查看详情]
2✨ BAGEN研究揭示LLM Agent预算感知失效:成功率与预估相关性仅0.35,系统性低估成常态数据洞察其他
Northwestern、Stanford等机构联合发布BAGEN研究,评估GPT-5.2、Claude Opus 4.7等主流模型在Sokoban等四环境的渐进式预算估计能力。结果显示,模型成功率与预估质量相关性极低(r≈0.35),20个组合中17个存在系统性低估。尽管在预算耗尽60%时仍有超70%的判定可行,但早期输出“impossible”可节省28%-64% Token且成功率仅微降1.6-4.2个百分点。该发现直击企业AI成本痛点,如Uber曾4个月烧光全年Claude Code预算,凸显优化Agent预算感知机制对控制巨额API开销的关键价值。(机器之心)[查看详情]
3小红书推出RED Skill:AI能力直嵌笔记分发,重构社区交互逻辑产品动态小红书
小红书正式上线RED Skill功能,成为首个将AI Skill与社区内容分发深度融合的平台。创作者在发布笔记时,可将原创或授权的AI能力以组件形式嵌入笔记中,用户无需跳转第三方即可直接调用该Skill进行交互。这一模式显著降低了AI工具的使用门槛,并赋予了创作者通过AI能力增强内容互动与变现的新路径。从商业层面看,RED Skill不仅强化了小红书在AI应用层级的入口地位,也预示着AI分发正从独立应用商店向社交内容生态渗透,可能改变AI服务的触达方式和用户习惯。(财联社AI daily)[查看详情]
▪ 行业动态
1✨ 阶跃星辰Step 3.7 Flash:以409 tokens/s吞吐与7.1秒端到端延迟领跑主流模型效率评测数据洞察阶跃星辰
阶跃星辰发布Step 3.7 Flash模型,在Artificial Analysis第三方基准测试中表现优异。该模型以409 tokens/s的输出速度位列主流模型第一,端到端响应时长压缩至7.1秒,显著优于竞品。评测覆盖通用问答、搜索、代码生成、多模态理解及Agent工作流等核心场景,结果显示Step 3.7 Flash在“智能-速度”平衡及“速度-价格”性价比维度均处于最具吸引力象限。作为专为生产环境设计的Flash层模型,其旨在兼顾高智能、低延迟与低成本,具备成为企业默认执行模型的潜力。(阶跃星辰)[查看详情]
2DeepSeek月活环比暴涨170%反超豆包,AI助手Web端格局突变数据洞察其他
量子位智库发布5月Web端AI智能助手榜单,DeepSeek国内访问量达1.54亿,环比增长17%超越豆包1.5亿登顶,独立访客数环比暴涨170%至3400万,反映出其产品迭代与用户粘性双重突破。豆包、千问访问量持平,增长乏力;Kimi访问量环比微增4%,独立访客却暴涨94%至700万,用户转化效率显著提升。海外新秀Z.ai独立访客环比激增6倍,平均访问时长从6分25秒跃升至8分7秒,显示长会话场景潜力。整体看,Web端AI助手正从流量争夺转向用户沉浸度竞争,DeepSeek的爆发式增长或加速行业洗牌,技术差异化与场景深耕成为下一阶段关键。(AIPulse)[查看详情]
3月之暗面Kimi新一轮融资估值飙升至300亿美元,半年内实现7倍增长商业动态Kimi
月之暗面(Kimi)正式开启新一轮融资,投前估值跃升至300亿美元,较2025年12月底的43亿美元暴涨7倍,彰显资本市场对其高速增长的强劲信心。与此同时,公司上周发布面向知识工作者的通用型本地Agent“Kimi Work”,进一步拓展B端应用场景。财务数据显示,其年度经常性收入(ARR)已于4月突破2亿美元大关。这一系列动作表明,Kimi正加速从技术验证走向规模化商业变现,在AI Agent赛道确立领先地位。(财联社AI daily)[查看详情]
夜雨聆风