▌实验是怎么做的

他把13张食物照片——奶酪三明治、西班牙海鲜饭、焦糖布丁等——分别提交给四个主流大模型：GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro、Gemini 3.1 Pro。

让它们估算每张照片的碳水含量。

然后，同一张照片，同一个模型，重复提交多次。

结果发现两个问题：

第一，四个模型给出的答案互相不一样。

第二，更严重的是——同一个模型，同一张照片，每次给出的答案也不一样。

▌具体差距有多大

以西班牙海鲜饭为例：

Gemini 2.5 Pro的估算值，在同一张照片上的波动范围是55克到484克。

差了429克。

对一个需要根据碳水含量打胰岛素的糖尿病人来说，这不是误差，这是灾难。

估算值相对集中的是Claude Sonnet 4.6，但波动范围同样不小。

再看奶酪三明治：包装上标注的碳水含量是40克。

GPT-5.4的平均估算值是74克，其他三个模型平均是28克。

全部错误，而且错误方向各不相同。

模型甚至有时认不出食物本身——把三明治里的奶酪识别成了一块熟肉。

不是这几个模型不够好，是这件事的本质决定了AI很难做到。

视觉信息天然有歧义。

同一张照片里，食物的分量、密度、烹饪方式，从二维图像里无法精确推断。

西班牙海鲜饭是浅盘还是深盘，米饭是煮透了还是半生，这些细节决定了碳水含量，但照片里看不清楚。

模型的回答是概率性的，不是测量值。

大模型生成文字的方式，是基于训练数据的概率分布，不是在执行精确计算。

同样的输入，每次输出都有随机性，这在写文章时是优点，在医疗估算时是致命缺陷。

没有标准化的参照系。

不同的拍摄角度、光线、盘子大小，都会影响模型的判断，而这些变量在真实使用中无法控制。

AI在食物识别上不是完全没有价值。

它可以做的：帮你大致判断这顿饭的食物类型，给出一个粗略的量级参考（比如"这是高碳水餐食"）。

它不能做的：给出用于医疗决策的精确数字。

两者的区别，在于后果。

一篇文章写错了，可以纠正。

糖尿病人的胰岛素剂量算错了，后果可能是低血糖昏迷，或者血糖急剧飙升。

需要精确数字的医疗决策，不能依赖大模型。

这不是AI不够努力，是它当前的工作方式，天然不适合这类任务。

那个"拍照估算碳水"的想法，不是不好。

只是它需要的那种精度，AI现在还给不了。

等它真的能给的那天，值得重新评估。

在那之前，别拿它做医疗判断。