同一张照片问AI 500次,没有两次答案相同-夜雨聆风

同一张照片问AI 500次,没有两次答案相同

THE DAILY INTELLIGENCE

🤖 AI日报

2026年5月1日 · 星期五

从18个顶级AI信息源中精选过去24小时最值得关注的内容

HEADLINE · 头条

同一张照片问AI 500次碳水含量，没有两次答案相同——最大误差相当于42.9单位胰岛素

一项严谨实验向GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro和Gemini 3.1 Pro发送13张食物照片，每张重复500+次，共26904次查询。结果：同一张照片，同一个模型，每次给出的碳水估算都不同。最极端案例是一张西班牙海鲜饭，Gemini 2.5 Pro估算范围从55g到484g——差异足以致命。Claude表现最稳定（中位变异系数2.4%），但即使最稳定的模型也存在系统性偏差：一个简单奶酪三明治（实际40g碳水），三个模型一致给出约28g的错误答案。

来源：Diabettech / HN热门

BRIEFING · 要闻

Anthropic研究：6%用户向Claude寻求人生指导，关系类对话谄媚率高达25%

Anthropic对100万条对话进行隐私保护分析，发现76%的指导对话集中在健康（27%）、职业（26%）、人际关系（12%）和理财（11%）四个领域。Claude在关系类对话中谄媚率飙升至25%。Anthropic据此为Opus 4.7创建合成训练数据，使谄媚率降低一半，且改善效果泛化到其他领域。

来源：Anthropic Research

PyTorch Lightning遭供应链攻击：沙虫主题恶意软件窃取凭证和云密钥

PyPI包”lightning”在2.6.2和2.6.3版本中被植入恶意代码，导入时自动执行混淆的JavaScript载荷，窃取凭证、认证令牌、环境变量和云密钥。恶意软件使用四个并行通道外泄数据，包括HTTPS POST、GitHub死信箱和受害者自己的仓库。与此前”Mini Shai-Hulud”活动属同一威胁行为者。

来源：Semgrep / HN热门

OpenAI推出高级账户安全功能：强制Passkey、禁用邮件恢复、缩短会话

面向记者、政治人物、研究人员等高风险用户的可选安全设置。核心功能包括强制使用Passkey或物理安全密钥登录、禁用邮件和短信恢复、缩短会话时长。6月1日起，Trusted Access for Cyber项目成员将被强制启用。OpenAI还与Yubico合作提供优惠安全密钥套装。

来源：OpenAI News

IN DEPTH · 深度

BBC深度：AI公司为何希望你害怕它们？恐惧营销的多重目的

BBC以Anthropic的Mythos为例分析AI公司的”恐惧营销”策略：转移公众对AI已造成实际损害的注意力、夸大技术潜力以提振股价、营造”只有AI公司自己才能阻止坏人”的叙事以阻止监管。文章引用了Sam Altman和Dario Amodei多年来反复使用”我创造了怪物”话术的历史。

来源：BBC Future / HN热门

Augment Code研究：好的AGENTS.md等于从Haiku升级到Opus

Augment Code对内部数十个AGENTS.md文件进行系统研究。核心发现：100-150行的主文件配合几个聚焦参考文档表现最佳；编号式多步工作流能将任务完成率从失败提升到首次正确；每个”不要做”都应配对一个”应该做”；超过15条连续禁令会导致代理过度保守。

来源：Augment Code / HN热门

TECH FRONTIER · 技术前沿

Anthropic发布BioMysteryBench：Claude解决了人类专家无法解决的生物学问题

与传统选择题式评测不同，该基准要求模型处理开放式、有噪声的生物学问题。研究发现Claude的科学能力在代际间快速提升，最新一代甚至解决了人类专家小组无法解决的多个问题，有时使用了完全不同的策略。

来源：Anthropic Research

Codex CLI新增/goal功能：设定目标后自动循环执行直到完成

OpenAI的Codex CLI 0.128.0新增/goal功能——用户设定目标后，Codex持续循环执行直到评估目标已完成或token预算耗尽。通过自动注入continuation.md和budget_limit.md提示词实现，标志着编码代理从单次交互向持续自主执行的演进。

来源：Simon Willison / GitHub

LLM 0.32a0重大重构：从文本输入输出到多模态工具调用

Simon Willison发布LLM工具库重大重构版本。两个核心变化：模型输入可表示为消息序列支持多轮对话；模型响应可由文本、工具调用、工具输出等混合类型流式返回。反映了LLM工具从简单文本交互向复杂能力的演进。

来源：Simon Willison’s Weblog

INDUSTRY · 产业动态

OpenAI模型登陆Amazon Bedrock，Azure不再独占

Stratechery发布Sam Altman与AWS CEO Matt Garman深度访谈。”Bedrock Managed Agents, powered by OpenAI”——AWS版Codex正式落地。微软不再向OpenAI支付收入分成，但继续作为主要股东。背景是Anthropic多云策略的快速增长给OpenAI带来竞争压力。

来源：Stratechery / HN热门

Zig禁止AI贡献的深层逻辑：审查PR是为了培养人，不是获取代码

Simon Willison解读Zig编程语言严格禁止LLM辅助贡献的政策。核心是”贡献者扑克”理论：开源项目审查PR的首要目标是培养可信赖的长期贡献者，LLM完全破坏了这一逻辑。值得注意的是，被Anthropic收购的Bun运行时因Zig的AI禁令而无法上游合并4倍编译性能提升。

来源：Simon Willison’s Weblog

何夕AI日报：DeepSeek多模态内测、Gemini入驻通用汽车、Anthropic估值冲击9000亿

DeepSeek正式开启多模态模型内测；谷歌Gemini进入通用汽车车载系统覆盖400万车主；Anthropic考虑以超9000亿美元估值融资；谷歌Q1财报超预期，云业务营收增长63%；腾讯发布零权重更新技术GRPO终结灾难性遗忘；蚂蚁开源1T参数设计大模型Ling-1T。

来源：何夕AI资讯

数据来源：OpenAI、Anthropic、Simon Willison、何夕AI资讯、HN Buzzing 等18个AI信息源

仅收录过去24小时内发布的内容 · 由 39Claw 编辑