▍OpenAI GPT‑5.5 Instant 成为默认模型,智能体能力大幅领先
5月5日起,GPT‑5.5 Instant 正式担任 ChatGPT 默认模型。在 Terminal‑Bench 2.0 复杂命令行工作流测试中,其准确率达到 82.7%,显著领先于 Gemini 3.1 Pro 的 68.5%(Claude Opus 4.7 尚未公布该项成绩)。该模型的核心突破在于“智能体”化,能自主规划步骤、调用工具并校验结果。API 定价为输入 $5/百万 Token、输出 $30/百万 Token,虽较上一代翻倍,但因完成复杂任务的 Token 消耗减少约 40%,整体效率仍然提升。此外,第三方评测显示其幻觉率为 86%,但 OpenAI 强调在法律、医疗、金融等敏感领域,幻觉已有明显收敛。Codex 也同步扩展至通用办公自动化,可连接 Slack、Google Workspace、Microsoft 365 等应用。
▍中国大模型融资创历史纪录
DeepSeek 拟募资最高 500 亿元人民币,创始人梁文锋计划个人出资 200 亿元,公司估值达 500 亿美元,创下中国 AI 公司融资新纪录。V4.1 模型预计 6 月推出,将正式整合多模态能力与 MCP 支持。
月之暗面 Kimi 完成 20 亿美元新一轮融资,投后估值突破 200 亿美元,半年内累计融资超 39 亿美元,投资方包括美团龙珠、中国移动、CPE 源峰等;其 ARR 已超过 2 亿美元。
阶跃星辰完成近 25 亿美元融资,华勤、龙旗、豪威、中兴等消费电子产业链资本集中入场,公司已拆除红筹架构全力冲刺港股 IPO,其多模态模型装机量突破 4200 万台,日均服务近 2000 万人次。
▍百度文心5.1正式发布,搜索能力登顶国内第一
5月9日,百度发布新一代基础模型文心5.1,采用原创多维弹性预训练技术,预训练成本仅为业界同规模模型的 6%。LMArena 大模型竞技场最新排名中,文心5.1 以 1223 分位居搜索榜国内第一、全球第四,是唯一进入全球前五的国产模型,其创意写作能力与 Gemini 3.1 Pro 相当,推理能力亦接近领先闭源模型。百度还将 5月13‑14日举办 Create 2026 百度AI开发者大会。
▍央行等三部门发布AI设备采购专项贷款支持政策
中国人民银行、国家发展改革委、财政部联合发文,将企业购买人工智能设备和软件服务纳入科技创新和技术改造专项贷款支持范围,通过“先贷后借”机制按季度提供相当于贷款本金 60% 的资金支持,进一步降低企业智能化升级门槛。
▍国外大模型动态速览
• Anthropic:Claude Opus 4.7 在可靠性方面领先,AA‑Omniscience 测试幻觉率仅 36%;SWE‑Bench Pro 真实 GitHub 问题解决准确率 64.3%,优于 GPT‑5.5 的 58.6%。Claude Security 开放公共测试,内置代码安全扫描;同时推出金融 Agent,覆盖 KYC、月度结账、估值审查等任务。有消息称,Anthropic 正考虑以约 9000 亿美元估值进行新一轮融资,拟筹集 500 亿美元,并与 SpaceX 扩大计算合作。
• Google:Gemini 3.1 Pro 多模态能力突出,BrowseComp 网页浏览理解测试得分 85.9%;API File Search 现支持多模态,同时推出事件驱动 Webhooks,方便长时任务自动通知。
• xAI:Grok 4.3 发布,Intelligence Index 得分 53,输入价格降 40%,输出降 60%。
• Mistral:Workflows 进入公共预览,由 Temporal 驱动的持久执行引擎支持人机回环 AI 流程。
• Meta:研究人员提出“Autodata”系统,将推理计算转化为更高质量的训练数据。
▍国内大模型动态速览
• 腾讯混元 Hy3 preview 上线以来 Token 调用量超上一代 Hy2 的 10 倍,在 OpenRouter 全球调用量周榜中排名总榜及市占率双第一。
• 阿里通义千问发布 Qwen3.6 开源权重模型,27B 版本 Intelligence Index 得分 46,成为 150B 参数以下最强开源模型,Apache 2.0 许可,支持 262K 上下文与视觉输入。
• 智谱 AI 港交所上市后市值约 4115 亿港元,并投资基流科技,布局算力基础设施。
▍Agent 落地加速
• OpenAI Codex 已从编码扩展为通用工作助手,可跨应用汇总信息、起草文档、制作幻灯片与项目计划。
• Anthropic 推出金融 Agent,专门处理 KYC、月度结账、投资演示文稿与估值审查等任务。
• 无问芯穹 Agentic MaaS 平台上线 160 余种模型,日均 Token 调用量较去年底增长超 20 倍。
• 金融行业已有 200 余个场景落地 DeepSeek,覆盖银行理财、保险承保等。
• 像素绽放推出 Agent 产品“小方同学”,注册用户超 3000 万;HakkoAI 的 AI 游戏陪伴产品全球注册用户超 1000 万,采用订阅制收费。
• 开发者工具 Obsidian 零代码 Agent 技能规范在 GitHub 获 27k+ stars;ChatGPT for Excel/Google Sheets 已全面向所有计划开放。
▍其他值得关注
• 工信部等三部门联合发布《人工智能终端智能化分级》(GB/Z 177—2026),划分 L1 至 L4 四级,首批覆盖手机、电脑、电视、眼镜、汽车座舱等 7 个品类。
• 江苏一律师因百度 AI 智能回答错误生成“被判三年有期徒刑”内容起诉百度名誉侵权,法院一、二审均认定侵权成立,成为 AI 幻觉侵权典型判例。
• Meta、亚马逊、Alphabet、微软 2026 年合计资本支出预计超 6500 亿美元;英伟达机器人研究负责人 Jim Fan 预判机器人物理 AI 将很快迎来突破;加州创业公司 Span 联合英伟达等计划在住宅外墙部署分布式 AI 数据中心。
• MiniMax 研究发现约 4.9% 的 token 存在退化问题,并提出修复方案;Google DeepMind 推出多模态“AI co‑clinician”,在 68 个评估领域中零关键错误率达 99%,匹配或超越医生表现。
潜入深海,也看岸边。
夜雨聆风