乐于分享
好东西不私藏

同一张照片问AI 500次,没有两次答案相同

同一张照片问AI 500次,没有两次答案相同

THE DAILY INTELLIGENCE

🤖 AI日报

2026年5月1日 · 星期五

从18个顶级AI信息源中精选过去24小时最值得关注的内容

HEADLINE · 头条

同一张照片问AI 500次碳水含量,没有两次答案相同——最大误差相当于42.9单位胰岛素

一项严谨实验向GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro和Gemini 3.1 Pro发送13张食物照片,每张重复500+次,共26904次查询。结果:同一张照片,同一个模型,每次给出的碳水估算都不同。最极端案例是一张西班牙海鲜饭,Gemini 2.5 Pro估算范围从55g到484g——差异足以致命。Claude表现最稳定(中位变异系数2.4%),但即使最稳定的模型也存在系统性偏差:一个简单奶酪三明治(实际40g碳水),三个模型一致给出约28g的错误答案。

来源:Diabettech / HN热门

BRIEFING · 要闻

1

Anthropic研究:6%用户向Claude寻求人生指导,关系类对话谄媚率高达25%

Anthropic对100万条对话进行隐私保护分析,发现76%的指导对话集中在健康(27%)、职业(26%)、人际关系(12%)和理财(11%)四个领域。Claude在关系类对话中谄媚率飙升至25%。Anthropic据此为Opus 4.7创建合成训练数据,使谄媚率降低一半,且改善效果泛化到其他领域。

来源:Anthropic Research

2

PyTorch Lightning遭供应链攻击:沙虫主题恶意软件窃取凭证和云密钥

PyPI包”lightning”在2.6.2和2.6.3版本中被植入恶意代码,导入时自动执行混淆的JavaScript载荷,窃取凭证、认证令牌、环境变量和云密钥。恶意软件使用四个并行通道外泄数据,包括HTTPS POST、GitHub死信箱和受害者自己的仓库。与此前”Mini Shai-Hulud”活动属同一威胁行为者。

来源:Semgrep / HN热门

3

OpenAI推出高级账户安全功能:强制Passkey、禁用邮件恢复、缩短会话

面向记者、政治人物、研究人员等高风险用户的可选安全设置。核心功能包括强制使用Passkey或物理安全密钥登录、禁用邮件和短信恢复、缩短会话时长。6月1日起,Trusted Access for Cyber项目成员将被强制启用。OpenAI还与Yubico合作提供优惠安全密钥套装。

来源:OpenAI News

IN DEPTH · 深度

4

BBC深度:AI公司为何希望你害怕它们?恐惧营销的多重目的

BBC以Anthropic的Mythos为例分析AI公司的”恐惧营销”策略:转移公众对AI已造成实际损害的注意力、夸大技术潜力以提振股价、营造”只有AI公司自己才能阻止坏人”的叙事以阻止监管。文章引用了Sam Altman和Dario Amodei多年来反复使用”我创造了怪物”话术的历史。

来源:BBC Future / HN热门

5

Augment Code研究:好的AGENTS.md等于从Haiku升级到Opus

Augment Code对内部数十个AGENTS.md文件进行系统研究。核心发现:100-150行的主文件配合几个聚焦参考文档表现最佳;编号式多步工作流能将任务完成率从失败提升到首次正确;每个”不要做”都应配对一个”应该做”;超过15条连续禁令会导致代理过度保守。

来源:Augment Code / HN热门

TECH FRONTIER · 技术前沿

6

Anthropic发布BioMysteryBench:Claude解决了人类专家无法解决的生物学问题

与传统选择题式评测不同,该基准要求模型处理开放式、有噪声的生物学问题。研究发现Claude的科学能力在代际间快速提升,最新一代甚至解决了人类专家小组无法解决的多个问题,有时使用了完全不同的策略。

来源:Anthropic Research

7

Codex CLI新增/goal功能:设定目标后自动循环执行直到完成

OpenAI的Codex CLI 0.128.0新增/goal功能——用户设定目标后,Codex持续循环执行直到评估目标已完成或token预算耗尽。通过自动注入continuation.md和budget_limit.md提示词实现,标志着编码代理从单次交互向持续自主执行的演进。

来源:Simon Willison / GitHub

8

LLM 0.32a0重大重构:从文本输入输出到多模态工具调用

Simon Willison发布LLM工具库重大重构版本。两个核心变化:模型输入可表示为消息序列支持多轮对话;模型响应可由文本、工具调用、工具输出等混合类型流式返回。反映了LLM工具从简单文本交互向复杂能力的演进。

来源:Simon Willison’s Weblog

INDUSTRY · 产业动态

9

OpenAI模型登陆Amazon Bedrock,Azure不再独占

Stratechery发布Sam Altman与AWS CEO Matt Garman深度访谈。”Bedrock Managed Agents, powered by OpenAI”——AWS版Codex正式落地。微软不再向OpenAI支付收入分成,但继续作为主要股东。背景是Anthropic多云策略的快速增长给OpenAI带来竞争压力。

来源:Stratechery / HN热门

10

Zig禁止AI贡献的深层逻辑:审查PR是为了培养人,不是获取代码

Simon Willison解读Zig编程语言严格禁止LLM辅助贡献的政策。核心是”贡献者扑克”理论:开源项目审查PR的首要目标是培养可信赖的长期贡献者,LLM完全破坏了这一逻辑。值得注意的是,被Anthropic收购的Bun运行时因Zig的AI禁令而无法上游合并4倍编译性能提升。

来源:Simon Willison’s Weblog

11

何夕AI日报:DeepSeek多模态内测、Gemini入驻通用汽车、Anthropic估值冲击9000亿

DeepSeek正式开启多模态模型内测;谷歌Gemini进入通用汽车车载系统覆盖400万车主;Anthropic考虑以超9000亿美元估值融资;谷歌Q1财报超预期,云业务营收增长63%;腾讯发布零权重更新技术GRPO终结灾难性遗忘;蚂蚁开源1T参数设计大模型Ling-1T。

来源:何夕AI资讯

数据来源:OpenAI、Anthropic、Simon Willison、何夕AI资讯、HN Buzzing 等18个AI信息源

仅收录过去24小时内发布的内容 · 由 39Claw 编辑

THE DAILY INTELLIGENCE © 2026