乐于分享
好东西不私藏

AI资讯日报-第三十二期

AI资讯日报-第三十二期

点击蓝字,关注我们
今日热点摘要AI INFORMATION

OpenAI推gpt-image-2,文字细节佳,可4K出图

Codex推Chronicle:截屏生成记忆,6小时自动删图

月之暗面开源K2.6,主做代码智能体,超GPT-5.4

Copilot停新订阅并缩额度,移除Opus,支持退4月费用

Gemini深研Max可接MCP;野火与视频检测研究推进,警示幻觉

关键发布与产品迭代

gpt-image-2 · OpenAI 上线 ChatGPT Images 2.0,新模型更擅长复杂插画与文字细节;实测可出 3840×2160,13,342 输出 token 约 $0.40。开发者可通过 API 直接用新 model id。
Codex Chronicle · OpenAI 为 Codex 增加“读屏记忆”Chronicle:后台截屏+OCR 生成本地 Markdown 记忆,截图 6 小时自动删;仅 macOS ChatGPT Pro 灰度,且会快速消耗额度,明文存储与注入风险需自担。
Kimi K2.6 · 月之暗面开源 MoE 模型 K2.6,主攻代码与长程 Agent:SWE-Bench Pro 58.6 分超 GPT-5.4(57.7)与 Opus 4.6(53.4),支持 12 小时/4000+ 工具调用与 300 子 Agent。
GitHub Copilot · GitHub 暂停 Copilot Pro/Pro+/Student 新订阅,收紧额度并将 Claude Opus 从 Pro 移除;不满变更者可在 4/20-5/20 申请取消并退 4 月费用,折射订阅补贴难以覆盖“代理式编码”成本。
Claude Code · 多方迹象显示 Anthropic 将 Claude Code 从 $20/月 Pro(新用户)移除:支持文档改为“仅 Max 计划可用”,官网定价亦反映变动;部分老 Pro 用户仍可在网页或 CLI 访问,是否全面回收待官方确认。
Deep Research Max · Google 将 Gemini Deep Research 分为标准版与 Max 版:后者可长时间反复检索与推理,支持 MCP 接入 FactSet/S&P/PitchBook 等数据源,并可生成 HTML 图表与信息图(Nano Banana);以 Gemini API 付费档公开预览。

科研进展与技术突破

FireScope-Bench · 论文提出野火风险基准与模型 FireScope:结合 Sentinel-2 与气候数据预测连续风险栅格,并提供“推理痕迹”提升可解释性;在美国训练、欧洲测试仍显著增益,强调语言推理可提升跨洲泛化。
DVAR · 研究将视频真伪检测改写为多智能体“法证辩论”:生成假设代理与自然机制代理交叉质询,再用最小描述长度(MDL)量化解释成本裁决;无需训练即可对未知生成架构保持更强泛化,并输出可追溯推理链。
Conformal Failure Masks · 论文面向内镜超分辨率提出可信框架:用轻量误差预测网络估计像素级重建误差,并构造具理论保证的“失败掩码”标记不可信区域,以降低幻觉结构与噪声放大在手术视频场景的风险。
IVF 胚胎数据集 · 团队发布带专家自然语言描述的胚胎图像数据集,覆盖细胞周期、发育阶段与形态特征,旨在微调视觉-语言模型输出可解释描述,并可进一步检索文献证据,提升 IVF 选择决策透明度与医患沟通。

行业政策与资本趋势

Anthropic×AWS · 亚马逊追加投资 Anthropic 50 亿美元、累计 130 亿;Anthropic 承诺未来十年在 AWS 投入超 1000 亿美元以获得约 5GW 算力,并深度采用亚马逊自研芯片训练/推理,算力与云绑定进一步加深。
Fairwater 数据中心 · 微软称 33 亿美元的 Fairwater AI 数据中心提前上线,占地 127.6 公顷、闭环液冷,配置数十万块 NVIDIA GB200,算力称达顶级超算 10 倍;并计划在美国复制模式以应对持续增长的训练需求。
Token 调用量 · 行业监测称全球大模型调用量在连增 10 周后两周回落,4/13-4/19 约 20.6 万亿 token;中国周调用环比 -23.77% 至 4.44 万亿,美国 +20.62% 至 4.91 万亿,背景是云与模型服务涨价潮。
Project Prometheus · 报道称贝索斯的 Project Prometheus 正以 380 亿美元估值融资约 100 亿美元,定位“物理 AI”用于制造与航天,并计划通过控股公司进行大规模并购扩张;融资若落地将加速硬科技与具身智能资本聚集。

落地实践与案例复盘

AI 编码智能体 · John D. Cook 复盘编码智能体进化:其编码工作被辅助占比从去年 8 月约 20% 升至当前约 60%,并在一次任务中实现“本需两个月学习、4 天完成”的约 10×提效;同时提醒需防过拟合测试与代码债。
OpenClaw 监控 · 社区经验称 OpenClaw“静默失败”常由内存/磁盘不足与 Node 堆 OOM 引起;作者用宿主机守护进程监测内存、磁盘、RPC 端口与服务状态并推送 Telegram 告警,配合 btop 定位重启原因后,通过加内存、调堆、清盘显著改善稳定性。
工具调用治理 · 有团队为 OpenClaw 做治理插件:执行前拦截工具调用并跑策略/人工确认,但遇到“exec 走 sendmail/curl”绕过——插件只能看到 shell.exec,意图被命令字符串隐藏,需持续补模式或把控制点前移到网络边界,暴露出 Agent 安全的工程难题。
Agent 评估 · n8n 详解智能体评估从离线到线上监控的阶段化方法:除结果外还需评“轨迹/工具调用/步数效率/成本”;建议组合确定性校验、LLM-as-judge、人审与用户反馈,并以 CI 与生产监控防模型升级回归。
AI 支付 · 蚂蚁数科 DTClaw 上线“AI 支付”,用户一句话开通授权后,智能体可在续费等场景调用支付宝完成交易,但仍需用户确认;并宣称以 CARLI 安全模型提供“刹车+黑匣子”审计追溯,为 Agent 价值闭环补齐支付基础设施。

开源与工具生态

brief · 新 CLI 工具 brief 汇总 54 生态、516 工具的“安装/测试/格式化/CI”等命令与配置位置,250ms 内识别项目栈并可输出 JSON;作者称已写入其智能体全局指令,减少在仓库里盲搜与试错,降低 token 消耗与误操作。
PixelClaw · 开源项目 PixelClaw 将图像处理做成可对话 Agent:集成 gpt-image 生图/编辑、rembg 抠图、pyxelate 像素化、自研后期算法,并支持 Whisper 语音转写与 Kokoro+HALO TTS,提供基于 Raylib 的拖拽 UI,便于本地流水线化处理。
Piper · Linux TTS 实践文章推荐本地优先的 Piper:在普通硬件即可运行,配合 Pied 图形界面挑选语音并接入 speech-dispatcher,立刻用于桌面无障碍与浏览器朗读;对比 eSpeak 能显著改善自然度,且避免文本上云带来的隐私与延迟。
KV-cache 压缩复现 · 开发者开源单卡复现 Cartridges 与 STILL 两种长上下文推理/KV-cache 压缩方案,附可跑的基准与对照(全上下文/截断等),强调“可读实现”比论文摘要更利于工程落地,适合评估上下文复用的系统权衡。

社媒观点与社区动向

Claude CLI · OpenClaw 社区称 Anthropic 员工反馈“复用 Claude CLI/OAuth 代理”再次被允许,因而将 OpenClaw 式的 claude -p 作为可行集成;但也提示生产环境仍以 Anthropic API Key 最稳定可控,避免策略变更导致长驻网关断供。
OpenClaw 运维债 · 热帖称下载量飙升下“真坑”在后期运维:心跳默认 30 分钟易烧 token、版本更新频繁易破坏技能/定时任务,且 clawhub 技能存在注入与恶意风险;建议路由心跳到便宜模型、固定版本、启用白名单并绑定 localhost,降低成本与暴露面。
医疗幻觉 · Gary Marcus 引述多项研究警告别用聊天机器人替代医疗决策:BMJ 审计 5 款聊天机器人,近半回答“高度问题且自信”;另有研究称 ChatGPT 健康分诊对金标准急症 低分诊率达 52%,需更强监管与公众教育。
训练集投毒 · Simon Willison 转发“pelicans riding bicycles”训练集污染实践:作者公开生成大量“鹈鹕骑自行车”素材以干扰未来模型学习,讨论指向生成内容泛滥下的训练数据可信度与可追溯性问题,也提示数据治理将成为长期对抗战。

免责声明:本平台旨在传递与分享更多科技创新政策及科研资讯,部分资料来源于网络,仅提供交流平台,不为其版权负责。如涉及侵权或其他问题,请联系我们及时修改或删除。