AI资讯日报 2026/05/05
今日摘要
• OpenAI 上线「进阶账户安全」:6/1 起网络防御白名单用户须启用,会话更短、默认不进训练 (✧∀✧)
• DeepMind 公布「AI 共同照护者」:98 例基层问诊客观评估中 97 例零关键差错,多模态远程场景 140 项量表里 68 项可比肩或超过全科基准
• 微软 Copilot 在 Word/Excel/PowerPoint 的代理式能力全量上线:官方披露 Excel 周人均尝试次数 +67%、满意度拇指率 +65%
• Decoupled DiLoCo 论文(2604.21428)给出跨城训练实证:120 亿参数、四区 WAN 2–5 Gbps,较传统同步方案端到端提速超 20 倍
• 谷歌 ADK-Python 与 OpenAI Agents SDK 等代理框架在 5 月初仍霸榜类型生态:检索时星标分别约 1.94 万 / 2.59 万(以页面为准)
产品与功能更新
1. OpenAI「进阶账户安全」
(OpenAI 官稿 4/30)面向高风险人群可选开启:登录强制通行密钥/硬件密钥并关闭密码登录,邮件与短信找回关闭且客服不参与找回;会话缩短并强化会话列表可视;开启后对话默认不用于训练。OpenAI 同时宣布 6/1 起 Trusted Access for Cyber 个人最敏感档位须启用该模式(或企业 SSO 侧等同强度认证),并与 Yubico 联合提供硬件密钥套装优惠价。
2. ChatGPT for Clinicians
(OpenAI 官稿 4/22)向美国持证医师、NP、PA、药师验证用户免费开放,内置可复用临床 Skills、循证检索与 HealthBench Professional 对齐评测;引述 AMA 2026 调研称 72% 受访医师已在临床场景使用 AI(去年同期 48%)。内部试点 6924 段真实工作对话中,医师对 99.6% 回复给出安全准确评分。
3. Microsoft 365 Copilot 代理式办公全量可用
(Microsoft 365 Blog 4/22)Word / Excel / PowerPoint 现可在画布内多步修改表格、版式与动画;官方披露上线约一个月内 Excel 人均周尝试 +67%、新用户次周留存 +50%、满意拇指率 +65%;Word 尝试频次 +52%、留存 +11%、满意度 +21%。
4. Google DeepMind「AI co-clinician」研究计划
(DeepMind Blog 4/30)同步发布技术报告 Towards Conversational Medical AI with Eyes, Ears and a Voice:在 98 例真实基层问诊风格 prompt 上,相对主流循证工具盲评更获医师偏好,客观稽核 97/98 例未出现关键差错;随机模拟远程问诊 120 场比较中,系统在 140 个细分技能维度里有 68 项达到或超过初级保健医师(PCP)水平,但在红旗识别与关键体格检查引导上人类专家仍整体占优。
5. 华为 × 中科大「灵境造物」科研云与 openJiuwen 协同工程
(量子位 5 月)4/25 中国科大正式发布面向物质科学与催化等场景的「灵境造物」智能科研云平台;openJiuwen 社区推出 Coordination Engineering 全栈:以 Agent Team Engine / Team Skills / Team Skills Hub / 自演进 将多智能体协作模板化,并与 MindSpore Science、昇腾栈打通文献—计算—实验闭环;文中给出电催化剂筛选案例称原本数周级高通量任务可压缩到小时级(效果随课题变化,以论文与平台为准)。
前沿研究
1. Decoupled DiLoCo 分布式训练
(DeepMind Blog & arXiv 2604.21428,4/23)在 Pathways 之上把预训练拆成异步「岛屿」 learner:120 亿参数模型跨美国 4 个区域,仅 2–5 Gbps 广域链路即完成全流程实验,较传统强同步法端到端提速 >20×;混沌工程注入掉卡后仍能自愈并在节点回归后无缝合并,基准精度与同期集中式训练对齐。
2. HealthBench Professional 临床对话评测
(OpenAI 白皮书随 ChatGPT for Clinicians,4/22)覆盖问诊、文书与研究三类真实聊天任务,采用医师撰写对话与多轮裁定;配套披露 355 例子集三路医师给定引用时,模型引用命中率可高于人类医师基线(任务定义见官方 PDF,勿在线转载示例防污染)。
3. GPT‑5.5 科学向评测台阶
(OpenAI「Introducing GPT‑5.5」4/23,更新 4/24 API)在基因场景 GeneBench 上绝对分数自 GPT‑5.4 的 19.0% 提升至 25.0%(GPT‑5.5 Pro 33.2%);生信综合分析 BixBench 公布成绩 80.5% 领先已披露对手;官方另披露组合数学方向 Ramsey 渐近界新证明已由模型辅助完成并在 Lean 形式化核验。
4. AI co-clinician 双代理安全架构
(DeepMind Blog 4/30)患者向多模态演示采用 Planner + Talker:Planner 持续监控对话边界;证据检索链路要求可溯源引用以压低commission/omission 错误,并与 NOHARM 改编框架对齐医师安全关切。
行业展望与社会影响
1. Anthropic 商业化 Run-rate 再攀台阶
(The Economic Times 等 2026 年 4 月报道)多家财经媒体称年化经常性收入已突破 约 300 亿美元/年(美元 Run-rate 口径),较 2025 年末约 90 亿美元基准显著抬升;同期 Anthropic 亦完成大额融资与芯片合作消息发酵,具体条款以监管披露为准。
2. 中国政策窗口:「人工智能+」写入高层日程
(36氪转引新华社通稿,4/28 政治局会议)会议强调全面实施「人工智能+」、发展智能经济新形态,资本市场对算力链路与垂直行业 Agent 落地预期再度升温。
3. 中国 AIGC 产业议程前移
(量子位 2026/04)5/20 北京 中国 AIGC 产业峰会(主题「马上 AI 起来」)进入会前宣发冲刺;同媒体预告 5/13–14 百度 Create 聚焦智能云 AI Infra / Agent Infra 与「超级个体」工具链。
4. Token 经济叙事同步升温
(36氪行业稿 2026 年春)报道称国内日均 Token 调用已达 140 万亿量级、同比 2024 年初超千倍,编程类任务占比过半;该口径来自媒体测算,企业应以账单与云厂商仪表为准。
5. 大规模金融 Agent 框架治理话题
(TauricResearch/TradingAgents 社区)多智能体投研沙盒持续迭代,0.2.x 分支强调结构化输出、LangGraph 检查点与多提供商路由;GitHub Star 检索时约 6.74 万,但项目明确仅供研究、不构成投资建议,实盘需合规自查。
开源TOP项目
1. openai-agents-python
链接:https://github.com/openai/openai-agents-python
OpenAI 官方轻量多代理编排 SDK,内置工具、护栏、追踪与实时语音实验路径;截至检索时 GitHub ⭐25 864(实时星标以页面为准)。
2. adk-python
链接:https://github.com/google/adk-python
Google Agent Development Kit(Python),声明模型无关、配套评估与多代理拓扑模板;截至检索时 ⭐19 430。
3. pydantic-ai
链接:https://github.com/pydantic/pydantic-ai
Pydantic 团队推出的类型友好 GenAI agent 框架,强调结构化输出与可观测性插桩;截至检索时 ⭐16 836。
4. TradingAgents
链接:https://github.com/TauricResearch/TradingAgents
面向金融场景的多角色 LLM 代理编排示例栈(分析师 / 研究员 / 交易员 / 风控等模块齐全),Apache-2.0;截至检索时 ⭐67 359,务必仅作仿真研究。
社媒分享
1. Hacker News 热议 GPT‑5.5 与 API 节奏
(Hacker News,2026 年 4 月下旬—5 月初线程)开发者集中讨论 Terminal-Bench 2.0 = 82.7%、SWE-Bench Pro = 58.6% 等公开指标,亦吐槽滚动发布期间队列与风控误杀;经验帖属个体感受,与官方 SLA 以仪表盘为准。
2. 中文社区转发「灵境造物 × openJiuwen」长文
(量子位 微信公众号 / 官网,5 月)热议 Coordination Engineering 是否预示「科研 Agent OS」范式;评论区分歧集中在高校云平台开放范围与实验机器人互通标准。
3. Dev.to 实务贴盘点 TradingAgents 0.2.4
(Dev.to 专栏,2026 年春)作者强调 Docker 一键编排与 10+ LLM Provider 适配,提醒读者注意杠杆与模拟撮合偏差;属社区教程性质。
4. 投资话题二级市场上谈 Anthropic Run-rate
(X / 财经博主聚合,2026 年春)段子化对比「Claude Code 单产品线 ARR」与「传统 SaaS 上市公司体量」,多属推断;引用须回到 彭博 / 经济时报 等一手财经报道。
5. 即刻 / 微信群聊「微软表格要被 Copilot 改写」
(即刻等中文兴趣社区,2026 年 4 月下旬)用户分享 Excel +67% 尝试频次数据截图与「公式审计」担忧;属于舆情层面的产品反馈样本。
夜雨聆风