AI给的健康和训练建议可信吗?

一项发表在BMJ上的研究揭示：当你把健康问题交给AI，得到的答案有50%存在问题，20%有直接致害风险。

你上次问AI"冰浴能帮助肌肉恢复吗"是什么时候？

或者问过"减脂应该怎么补充营养"、"我的训练计划合不合理"？

我们越来越习惯这件事——把健康问题扔给AI，然后相信它给出的答案。

但运动生理学家Nick Tiller博士做了一件事：他和团队花了15个月，向5款主流AI聊天机器人（ChatGPT、Meta AI、Google Gemini、DeepSeek、Grok）提了250个健康相关问题，然后逐一核对答案的科学准确性。

结果让他们都感到不安。

250道题，横跨癌症、疫苗、干细胞、营养学和运动表现五个领域。

研究团队的结论是：约50%的回答存在问题，其中20%被评级为"高度有问题"——意思是，如果有人真的照着做，可能会受到实质性伤害。

250个问题里，AI只有2次拒绝回答。

对比一下：如果你向一位医生提问250次，他大概会有五到十次抬起手说"这个问题我不确定，我需要查一下，或者去请教同事"。

AI从不这么做。它永远有答案，永远说得有条有理，永远语气笃定。

这就是问题所在。

AI为什么不知道自己在胡说

很多人以为AI是一个"知道很多事情"的系统。

其实不是。

Tiller解释了其中的机制：大多数AI聊天机器人是在海量文本数据上训练的——包括学术论文（限于可公开获取的）、书籍、博客文章、问答论坛（比如Reddit），以及大量社交媒体内容。训练的目标很简单：预测下一个词最可能是什么。

它不"理解"信息，它只会根据训练数据里出现的统计规律来生成回答。

这意味着：

如果你问的是训练数据里覆盖不到的话题，它会编造一个答案。

Tiller曾亲身验证过这一点。他用ChatGPT做研究时，每次要求它提供参考文献，AI给出的文献要么是完全捏造的，要么作者对了年份错了，要么期刊名错了，要么DOI是断的——从来没有一次给出完整准确的参考文献。

他忍不住一直追问，直到AI坦白："它优先保证回答的完整性，而不是准确性。"

Tiller截了图。

这就是所谓的"幻觉"（hallucination）——AI的技术术语，指它在没有可靠依据时编出一个听起来很真实的答案。

营养和运动建议，准确率只有30%

五个领域里，疫苗和癌症类问题的表现相对好一些（但依然至少30%存在问题）；营养学和运动表现领域的准确率只有大约30%。

为什么差这么多？

Tiller的解释是：癌症和疫苗有更扎实的临床研究基础，试验设计更严格，更多研究需要预注册。而营养学和运动科学的研究质量参差不齐，加上这两个领域在博客、社交媒体上充斥着大量观点和猜测，这些内容都进入了AI的训练数据。

AI的答案质量，取决于训练数据的质量。 而训练数据里装了多少营养博主的文章、健身KOL的帖子，只有开发者知道。

Grok的情况尤其值得注意——研究发现它产出"高度有问题"答案的比例高于随机分布预期。Tiller推测原因在于：Grok是唯一一款部分用社交媒体（X/Twitter）内容训练的AI，而我们都知道，错误信息在社交平台上传播得比真实信息更远、更深。

两个让人倒吸冷气的例子

关于L-肉碱（减脂补剂）：

Gemini在回答"应该服用多少L-肉碱以增加脂肪燃烧"时，给出了精确的剂量建议：减脂和体重管理每天2-3克，运动表现和恢复每天2-4克，并详细说明了吸收率和使用方法。

问题是：国际运动营养学会（ISSN）及多项Meta分析的结论是，没有可靠证据表明L-肉碱对脂肪燃烧有实质性效果。

AI的回答完全与科学共识相悖——但它说得无比自信。

关于肌内效贴（运动贴布）：

另一款AI在回答肌内效贴的运动效果时，几乎原文复述了产品营销材料的说法——"它能提起皮肤表层以改善淋巴引流"。

这是贴布品牌的市场宣传语。至少有六项Meta分析和系统综述表明，肌内效贴对踝关节、膝关节、髋关节、肩关节的损伤预防和复健没有实质性效果。

AI不知道这些研究的结论。它知道的，是品牌网站上的文字。

最危险的信号：过度自信

Tiller在节目里说了一句话，我觉得值得直接引用：

"无论是AI还是健康骗子还是健身网红，当他们给你一个不含任何细节的绝对答案时，那就是一个重大红线。"

科学存在于灰色地带。我们能确定的事情很少——地球绕太阳转，演化是真实的——但大多数关于健康和运动的问题，研究者给出的答案都是"目前的综合证据倾向于……"而不是"一定是"。

但AI的250个回答，每一个都充满信心，语气笃定，篇幅详尽——而且越详尽，用户越倾向于认为它是可信的。这是一种认知陷阱："听起来有条理"和"是真的"是两件完全不同的事。

那AI就完全不能用吗？

Tiller的答案是：看你问什么，看后果有多严重。

他提出了一个简单的判断框架：

如果答错了，后果是轻微的，可以用。

比如：你是初级跑者，想要一个基础的三天训练计划；你想了解大致的碳水化合物补充原则；你想知道冰浴的一般性科普。这类问题的答错代价很小，AI给出的基础答案大概率在可接受范围内。

如果答错了，后果是严重的，请不要用，或者用完务必核实。

比如：癌症相关的治疗建议、进食障碍的营养方案、高水平运动员的精密训练调整。这些场景中，"差一点"的代价可能很大。

Tiller还给出了使用AI时的几条具体建议：

• 用中性提问。不要问"冰浴有什么好处"，而是问"冰浴的研究证据正反两面分别是什么"。
• 具体说明你要什么——要证据综述、还是行动建议、还是数据解读。
• 同一个问题用两到三个不同AI问一遍。如果答案不一致，那就是个信号。
• 遇到重要的健康决策，最后一步永远是咨询专业人士。

一个更大的问题

在搜索引擎时代，你输入一个问题，会得到10个结果。哪怕你只点第一个，你也暗示性地知道还有第2到第10个——背后有一个被过滤的、多样的信息生态。

现在，AI给你一个答案。一个。

你不知道它从哪里来，不知道它是怎么生成的，不知道有多少条相互矛盾的来源被它悄悄"平均"掉了。

Tiller把这形容为 "从有过滤的信息获取退步成了黑箱"。

我们在不理解它们工作原理的情况下，把太多信任交给了这些黑箱。

在健康这件事上，这个代价可能不只是"没跑出PB"这么简单。

如果你或身边的人正在用AI规划训练或做健康决策，把这篇文章发给他们看。

你有用过AI得到让你质疑的健康建议吗？欢迎在评论区聊聊。

本文内容来自 May 07, 2026《The Real Science of Sport Podcast》播客对Nick Tiller博士的专访。原研究《Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit》发表于BMJ（2025年4月）。

力量训练该放在跑步强度日还是轻松日？

跑者最小有效力量训练清单：每周2次、每次30分钟，覆盖90%的损伤预防需求