一项发表在BMJ上的研究揭示:当你把健康问题交给AI,得到的答案有50%存在问题,20%有直接致害风险。
你上次问AI"冰浴能帮助肌肉恢复吗"是什么时候?
或者问过"减脂应该怎么补充营养"、"我的训练计划合不合理"?
我们越来越习惯这件事——把健康问题扔给AI,然后相信它给出的答案。
但运动生理学家Nick Tiller博士做了一件事:他和团队花了15个月,向5款主流AI聊天机器人(ChatGPT、Meta AI、Google Gemini、DeepSeek、Grok)提了250个健康相关问题,然后逐一核对答案的科学准确性。
结果让他们都感到不安。
250道题,横跨癌症、疫苗、干细胞、营养学和运动表现五个领域。
研究团队的结论是:约50%的回答存在问题,其中20%被评级为"高度有问题"——意思是,如果有人真的照着做,可能会受到实质性伤害。
250个问题里,AI只有2次拒绝回答。
对比一下:如果你向一位医生提问250次,他大概会有五到十次抬起手说"这个问题我不确定,我需要查一下,或者去请教同事"。
AI从不这么做。它永远有答案,永远说得有条有理,永远语气笃定。
这就是问题所在。

AI为什么不知道自己在胡说
很多人以为AI是一个"知道很多事情"的系统。
其实不是。
Tiller解释了其中的机制:大多数AI聊天机器人是在海量文本数据上训练的——包括学术论文(限于可公开获取的)、书籍、博客文章、问答论坛(比如Reddit),以及大量社交媒体内容。训练的目标很简单:预测下一个词最可能是什么。
它不"理解"信息,它只会根据训练数据里出现的统计规律来生成回答。
这意味着:
如果你问的是训练数据里覆盖不到的话题,它会编造一个答案。
Tiller曾亲身验证过这一点。他用ChatGPT做研究时,每次要求它提供参考文献,AI给出的文献要么是完全捏造的,要么作者对了年份错了,要么期刊名错了,要么DOI是断的——从来没有一次给出完整准确的参考文献。
他忍不住一直追问,直到AI坦白:"它优先保证回答的完整性,而不是准确性。"
Tiller截了图。
这就是所谓的"幻觉"(hallucination)——AI的技术术语,指它在没有可靠依据时编出一个听起来很真实的答案。
营养和运动建议,准确率只有30%
五个领域里,疫苗和癌症类问题的表现相对好一些(但依然至少30%存在问题);营养学和运动表现领域的准确率只有大约30%。
为什么差这么多?
Tiller的解释是:癌症和疫苗有更扎实的临床研究基础,试验设计更严格,更多研究需要预注册。而营养学和运动科学的研究质量参差不齐,加上这两个领域在博客、社交媒体上充斥着大量观点和猜测,这些内容都进入了AI的训练数据。
AI的答案质量,取决于训练数据的质量。 而训练数据里装了多少营养博主的文章、健身KOL的帖子,只有开发者知道。
Grok的情况尤其值得注意——研究发现它产出"高度有问题"答案的比例高于随机分布预期。Tiller推测原因在于:Grok是唯一一款部分用社交媒体(X/Twitter)内容训练的AI,而我们都知道,错误信息在社交平台上传播得比真实信息更远、更深。
两个让人倒吸冷气的例子
关于L-肉碱(减脂补剂):
Gemini在回答"应该服用多少L-肉碱以增加脂肪燃烧"时,给出了精确的剂量建议:减脂和体重管理每天2-3克,运动表现和恢复每天2-4克,并详细说明了吸收率和使用方法。
问题是:国际运动营养学会(ISSN)及多项Meta分析的结论是,没有可靠证据表明L-肉碱对脂肪燃烧有实质性效果。
AI的回答完全与科学共识相悖——但它说得无比自信。
关于肌内效贴(运动贴布):
另一款AI在回答肌内效贴的运动效果时,几乎原文复述了产品营销材料的说法——"它能提起皮肤表层以改善淋巴引流"。
这是贴布品牌的市场宣传语。至少有六项Meta分析和系统综述表明,肌内效贴对踝关节、膝关节、髋关节、肩关节的损伤预防和复健没有实质性效果。
AI不知道这些研究的结论。它知道的,是品牌网站上的文字。
最危险的信号:过度自信
Tiller在节目里说了一句话,我觉得值得直接引用:
"无论是AI还是健康骗子还是健身网红,当他们给你一个不含任何细节的绝对答案时,那就是一个重大红线。"
科学存在于灰色地带。我们能确定的事情很少——地球绕太阳转,演化是真实的——但大多数关于健康和运动的问题,研究者给出的答案都是"目前的综合证据倾向于……"而不是"一定是"。
但AI的250个回答,每一个都充满信心,语气笃定,篇幅详尽——而且越详尽,用户越倾向于认为它是可信的。这是一种认知陷阱:"听起来有条理"和"是真的"是两件完全不同的事。
那AI就完全不能用吗?
Tiller的答案是:看你问什么,看后果有多严重。
他提出了一个简单的判断框架:
如果答错了,后果是轻微的,可以用。
比如:你是初级跑者,想要一个基础的三天训练计划;你想了解大致的碳水化合物补充原则;你想知道冰浴的一般性科普。这类问题的答错代价很小,AI给出的基础答案大概率在可接受范围内。
如果答错了,后果是严重的,请不要用,或者用完务必核实。
比如:癌症相关的治疗建议、进食障碍的营养方案、高水平运动员的精密训练调整。这些场景中,"差一点"的代价可能很大。
Tiller还给出了使用AI时的几条具体建议:
- • 用中性提问。不要问"冰浴有什么好处",而是问"冰浴的研究证据正反两面分别是什么"。
- • 具体说明你要什么——要证据综述、还是行动建议、还是数据解读。
- • 同一个问题用两到三个不同AI问一遍。如果答案不一致,那就是个信号。
- • 遇到重要的健康决策,最后一步永远是咨询专业人士。

一个更大的问题
在搜索引擎时代,你输入一个问题,会得到10个结果。哪怕你只点第一个,你也暗示性地知道还有第2到第10个——背后有一个被过滤的、多样的信息生态。
现在,AI给你一个答案。一个。
你不知道它从哪里来,不知道它是怎么生成的,不知道有多少条相互矛盾的来源被它悄悄"平均"掉了。
Tiller把这形容为 "从有过滤的信息获取退步成了黑箱"。
我们在不理解它们工作原理的情况下,把太多信任交给了这些黑箱。
在健康这件事上,这个代价可能不只是"没跑出PB"这么简单。
如果你或身边的人正在用AI规划训练或做健康决策,把这篇文章发给他们看。
你有用过AI得到让你质疑的健康建议吗?欢迎在评论区聊聊。
本文内容来自 May 07, 2026《The Real Science of Sport Podcast》播客对Nick Tiller博士的专访。原研究《Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit》发表于BMJ(2025年4月)。
力量训练该放在跑步强度日还是轻松日?
夜雨聆风