AI资讯日报-第三十二期-夜雨聆风

AI资讯日报-第三十二期

点击蓝字，关注我们

今日热点摘要AI INFORMATION

OpenAI推gpt-image-2，文字细节佳，可4K出图

Codex推Chronicle：截屏生成记忆，6小时自动删图

月之暗面开源K2.6，主做代码智能体，超GPT-5.4

Copilot停新订阅并缩额度，移除Opus，支持退4月费用

Gemini深研Max可接MCP；野火与视频检测研究推进，警示幻觉

关键发布与产品迭代

gpt-image-2 · OpenAI 上线 ChatGPT Images 2.0，新模型更擅长复杂插画与文字细节；实测可出 3840×2160，13,342 输出 token 约 $0.40。开发者可通过 API 直接用新 model id。

Codex Chronicle · OpenAI 为 Codex 增加“读屏记忆”Chronicle：后台截屏+OCR 生成本地 Markdown 记忆，截图 6 小时自动删；仅 macOS ChatGPT Pro 灰度，且会快速消耗额度，明文存储与注入风险需自担。

Kimi K2.6 · 月之暗面开源 MoE 模型 K2.6，主攻代码与长程 Agent：SWE-Bench Pro 58.6 分超 GPT-5.4(57.7)与 Opus 4.6(53.4)，支持 12 小时/4000+ 工具调用与 300 子 Agent。

GitHub Copilot · GitHub 暂停 Copilot Pro/Pro+/Student 新订阅，收紧额度并将 Claude Opus 从 Pro 移除；不满变更者可在 4/20-5/20 申请取消并退 4 月费用，折射订阅补贴难以覆盖“代理式编码”成本。

Claude Code · 多方迹象显示 Anthropic 将 Claude Code 从 $20/月 Pro（新用户）移除：支持文档改为“仅 Max 计划可用”，官网定价亦反映变动；部分老 Pro 用户仍可在网页或 CLI 访问，是否全面回收待官方确认。

Deep Research Max · Google 将 Gemini Deep Research 分为标准版与 Max 版：后者可长时间反复检索与推理，支持 MCP 接入 FactSet/S&P/PitchBook 等数据源，并可生成 HTML 图表与信息图（Nano Banana）；以 Gemini API 付费档公开预览。

科研进展与技术突破

FireScope-Bench · 论文提出野火风险基准与模型 FireScope：结合 Sentinel-2 与气候数据预测连续风险栅格，并提供“推理痕迹”提升可解释性；在美国训练、欧洲测试仍显著增益，强调语言推理可提升跨洲泛化。

DVAR · 研究将视频真伪检测改写为多智能体“法证辩论”：生成假设代理与自然机制代理交叉质询，再用最小描述长度（MDL）量化解释成本裁决；无需训练即可对未知生成架构保持更强泛化，并输出可追溯推理链。

Conformal Failure Masks · 论文面向内镜超分辨率提出可信框架：用轻量误差预测网络估计像素级重建误差，并构造具理论保证的“失败掩码”标记不可信区域，以降低幻觉结构与噪声放大在手术视频场景的风险。

IVF 胚胎数据集 · 团队发布带专家自然语言描述的胚胎图像数据集，覆盖细胞周期、发育阶段与形态特征，旨在微调视觉-语言模型输出可解释描述，并可进一步检索文献证据，提升 IVF 选择决策透明度与医患沟通。

行业政策与资本趋势

Anthropic×AWS · 亚马逊追加投资 Anthropic 50 亿美元、累计 130 亿；Anthropic 承诺未来十年在 AWS 投入超 1000 亿美元以获得约 5GW 算力，并深度采用亚马逊自研芯片训练/推理，算力与云绑定进一步加深。

Fairwater 数据中心 · 微软称 33 亿美元的 Fairwater AI 数据中心提前上线，占地 127.6 公顷、闭环液冷，配置数十万块 NVIDIA GB200，算力称达顶级超算 10 倍；并计划在美国复制模式以应对持续增长的训练需求。

Token 调用量 · 行业监测称全球大模型调用量在连增 10 周后两周回落，4/13-4/19 约 20.6 万亿 token；中国周调用环比 -23.77% 至 4.44 万亿，美国 +20.62% 至 4.91 万亿，背景是云与模型服务涨价潮。

Project Prometheus · 报道称贝索斯的 Project Prometheus 正以 380 亿美元估值融资约 100 亿美元，定位“物理 AI”用于制造与航天，并计划通过控股公司进行大规模并购扩张；融资若落地将加速硬科技与具身智能资本聚集。

落地实践与案例复盘

AI 编码智能体 · John D. Cook 复盘编码智能体进化：其编码工作被辅助占比从去年 8 月约 20% 升至当前约 60%，并在一次任务中实现“本需两个月学习、4 天完成”的约 10×提效；同时提醒需防过拟合测试与代码债。

OpenClaw 监控 · 社区经验称 OpenClaw“静默失败”常由内存/磁盘不足与 Node 堆 OOM 引起；作者用宿主机守护进程监测内存、磁盘、RPC 端口与服务状态并推送 Telegram 告警，配合 btop 定位重启原因后，通过加内存、调堆、清盘显著改善稳定性。

工具调用治理 · 有团队为 OpenClaw 做治理插件：执行前拦截工具调用并跑策略/人工确认，但遇到“exec 走 sendmail/curl”绕过——插件只能看到 shell.exec，意图被命令字符串隐藏，需持续补模式或把控制点前移到网络边界，暴露出 Agent 安全的工程难题。

Agent 评估 · n8n 详解智能体评估从离线到线上监控的阶段化方法：除结果外还需评“轨迹/工具调用/步数效率/成本”；建议组合确定性校验、LLM-as-judge、人审与用户反馈，并以 CI 与生产监控防模型升级回归。

AI 支付 · 蚂蚁数科 DTClaw 上线“AI 支付”，用户一句话开通授权后，智能体可在续费等场景调用支付宝完成交易，但仍需用户确认；并宣称以 CARLI 安全模型提供“刹车+黑匣子”审计追溯，为 Agent 价值闭环补齐支付基础设施。

开源与工具生态

brief · 新 CLI 工具 brief 汇总 54 生态、516 工具的“安装/测试/格式化/CI”等命令与配置位置，250ms 内识别项目栈并可输出 JSON；作者称已写入其智能体全局指令，减少在仓库里盲搜与试错，降低 token 消耗与误操作。

PixelClaw · 开源项目 PixelClaw 将图像处理做成可对话 Agent：集成 gpt-image 生图/编辑、rembg 抠图、pyxelate 像素化、自研后期算法，并支持 Whisper 语音转写与 Kokoro+HALO TTS，提供基于 Raylib 的拖拽 UI，便于本地流水线化处理。

Piper · Linux TTS 实践文章推荐本地优先的 Piper：在普通硬件即可运行，配合 Pied 图形界面挑选语音并接入 speech-dispatcher，立刻用于桌面无障碍与浏览器朗读；对比 eSpeak 能显著改善自然度，且避免文本上云带来的隐私与延迟。

KV-cache 压缩复现 · 开发者开源单卡复现 Cartridges 与 STILL 两种长上下文推理/KV-cache 压缩方案，附可跑的基准与对照（全上下文/截断等），强调“可读实现”比论文摘要更利于工程落地，适合评估上下文复用的系统权衡。

社媒观点与社区动向

Claude CLI · OpenClaw 社区称 Anthropic 员工反馈“复用 Claude CLI/OAuth 代理”再次被允许，因而将 OpenClaw 式的 claude -p 作为可行集成；但也提示生产环境仍以 Anthropic API Key 最稳定可控，避免策略变更导致长驻网关断供。

OpenClaw 运维债 · 热帖称下载量飙升下“真坑”在后期运维：心跳默认 30 分钟易烧 token、版本更新频繁易破坏技能/定时任务，且 clawhub 技能存在注入与恶意风险；建议路由心跳到便宜模型、固定版本、启用白名单并绑定 localhost，降低成本与暴露面。

医疗幻觉 · Gary Marcus 引述多项研究警告别用聊天机器人替代医疗决策：BMJ 审计 5 款聊天机器人，近半回答“高度问题且自信”；另有研究称 ChatGPT 健康分诊对金标准急症 低分诊率达 52%，需更强监管与公众教育。

训练集投毒 · Simon Willison 转发“pelicans riding bicycles”训练集污染实践：作者公开生成大量“鹈鹕骑自行车”素材以干扰未来模型学习，讨论指向生成内容泛滥下的训练数据可信度与可追溯性问题，也提示数据治理将成为长期对抗战。

免责声明：本平台旨在传递与分享更多科技创新政策及科研资讯，部分资料来源于网络，仅提供交流平台，不为其版权负责。如涉及侵权或其他问题，请联系我们及时修改或删除。