AI工具使用分享(1)-国内外通用大模型在药物研发场景中幻觉及缓解策略

本期目录

引言

开篇-当前大模型的能力边界

一、什么是大模型幻觉

二、产生幻觉的原因有哪些？

三、科研学术场景AI幻觉的表现形式

四、AI幻觉如何避免或缓解？

五、国内外通用大模型交叉验证缓解AI幻觉的测评

以下正文：

引言

AI 正以前所未有的速度渗透、整合并深度重塑各行各业，技术的持续突破带来革命性变革，从产业结构、工作流程到学习方式、思维模式，都被全面重构与升级。AI 的设计初衷并非替代人类，而是延伸人类能力、增强人类智慧、放大个体价值，协作是人与 AI 关系的基本原则，人机协作共同解决问题。

作为药企的一名分析科学家

（俗称牛马

），面对突飞猛进的AI技术，也在积极的拥抱新技术，赋能到工作与学习，提高效率和个人能力，拓展能力边界，一些感悟和使用体验，分享给大家。

本系列会持续更新，内容侧重于AI模型使用体验及经验分享（国内、国外通用大模型）、AI工具赋能工作场景的方法论和典型案例（知识库工具、科研绘图、AI PPT、智能体自动化、vibe coding等）、AI学习资源分享等等，感兴趣的请关注我

。

开篇-当前大模型的能力边界

上图引用自厦门大学《智能体OpenClaw（小龙虾）应用实践》

当前大模型强于文本理解与生成、逻辑推理、知识广度等，但在事实准确性、情感理解等还是存在明显的不足。

事实准确性也就是大家常说的幻觉+知识过时问题。知识过时可以通过联网搜索解决，但是AI幻觉会让人难以判别，因为AI可以一本正经的胡说八道，编造根本就不存在的定理、指导原则和参考文献，尤其是在严肃的学术科研及其他专业场景，例如在药物分析、法规、文献解读、申报资料等场景里，它的风险很高，因为错误往往不是低级错误

目前大家对AI使用最普遍还是生活场景，作为日常聊天搭子，帮孩子批改作业，科普概念、搜索信息（代替百度），提供情绪价值等等，在此场景下，幻觉率容忍度大大提升。当然了，也有人完全信任AI，被忽悠，遭受损失，比如最近豆包的“飞机票”和“毒蘑菇”事件。

借用国民豆包话术：我给你最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山、最单刀直入、最不铺垫、最不客套、不煽情、最不废话、最不拐弯、最不装、最不端着、最不啰嗦、最不拖沓、最不委婉、最不掩饰、最不藏着掖着、最直白、最露骨、最实在、最通透、最毒辣、最爽快、最解气、最上头、最够劲、最过瘾、最粗暴、最有效、最狠、最准、最稳、最绝、最顶、最利落、最霸道、最生猛、最狂野、最不讲虚的、最不玩套路、最不搞形式、最不整虚头巴脑、只讲干货、只重重点、只给结果、只聊真相、只谈核心、只戳关键的方式的结论：.....

用户称轻信豆包退机票亏600元，豆包“承诺包赔”“打官司不用律师自己就能赢”！AI幻觉造成损失，该谁买单？

豆包误判蘑菇导致用户中毒？抖音集团副总裁回应

我想说，对新技术应做好预期管理，打破技术狂热与技术幻灭的周期，任何颠覆性的技术，使用者容易陷入两个极端，要么神化AI，认为他无所不能；要么在遭遇AI幻觉后彻底否定。AI是一个需要调教的实行生，不是全能的先知，因此要客观对待，一方面积极了解原理和底层逻辑，对新技术祛魅，避免狂热崇拜，深信不疑；另一方面应积极拥抱，尝试使用场景，把它作为放大个人能力和价值的工具理性使用。

一、什么是大模型的幻觉？

模型在缺乏可靠依据、检索失败、上下文不足或推理不稳的情况下，仍然生成确定性很强的答案，包括编造事实、文献、法规条款、数据、引用、机制解释或结论。本质上不是“模型故意撒谎”，而是模型生成了看起来流畅、合理、专业，但事实不成立或缺乏证据支撑的内容。这正是幻觉最危险的地方。

OpenAI 2025 年关于语言模型幻觉的研究指出，幻觉仍然存在于最新模型中，一个重要原因是模型训练和评测机制往往奖励“给出答案”，而不是奖励“知道自己不知道”。

二、产生幻觉的原因有哪些？

核心原因有5类：

1、大模型的基本任务是预测下一个最可能出现的词，不是天然地“查事实”。它擅长生成语言模式，但事实正确性需要额外约束。

2、训练数据中存在错误、过时信息、互相矛盾的信息。模型可能学到“像专业文本的表达方式”，但不一定知道哪条信息是最新、最权威的。

3、很多评测体系更偏向奖励“回答完整、流畅、自信”，而不是奖励“拒答、保留不确定性、要求查证”。

4、上下文不足时，模型会用已有模式补全缺失信息。比如用户只问“这个限度计算的对吗”，但没有给出其他关键信息，模型就可能自动补全条件。

5、模型本身没有稳定的“事实数据库”。即使是很强的模型，也可能在法规、药典、最新指南、产品说明书、专利、文献细节上出错。

三、科研学术场景AI幻觉的表现形式

主要表现有 9 类：

1、事实型幻觉-最常见的一类。

模型会把不存在、不准确或过时的信息说成事实。

典型表现

编造某个法规已经发布；

错写指南发布时间；

把旧版要求说成最新版要求；

把国外监管要求说成国内要求；

把某个机构没有说过的话归给该机构；

把某个方法说成药典收载，但实际没有。

2、引用型幻觉-专业场景中非常危险的一类

模型会编造文献、法规、指南、DOI、作者、期刊，或者引用真实文献但歪曲原文内容。

典型表现

文献题名看起来很真实，但实际查不到；

作者、年份、期刊名称错误；

DOI 不存在；

真实文献被错误引用；

文献存在，但原文没有支持模型给出的结论；

把综述观点说成法规要求；

把行业经验说成官方规定。

3、法规/指南混用型

混淆 FDA、EMA、ICH、CDE 等不同体系要求。

典型表现

把 FDA 建议说成 ICH 要求；

把 EMA 问答说成 CDE 指导原则；

把 ICH M7 的普通基因毒性杂质逻辑套到所有亚硝胺；

把 USP 方法说成中国药典方法；

把药典通则要求说成具体品种标准；

把“建议”说成“必须”。

4、机制型幻觉

用专业术语堆砌解释，但缺少实验或文献支持。

典型表现

把所有峰拖尾都归因于硅醇基作用；

把所有手性分离都解释为“三点作用”；

把所有鬼峰都归因于流动相污染；

把所有杂质峰都解释为降解产物；

把经验规律说成确定机制；

用很多术语堆砌，但没有实验依据。

5、计算型幻觉

单位换算、公式、校正因子或折算条件错误。

典型表现

ppm、%、μg/mL、μg/day 换算错误；

忽略最大日剂量；

忽略盐型折算；

忽略水分、残留溶剂、含量校正；

校正因子方向用反；

外标法、自身对照法、加校正因子法混用；

RSD、回收率、线性回归结果算错；

把限度浓度和供试品浓度混淆。

6、过度推断型

信息不足却下确定结论，把“可能”说成“确定”。

典型表现

只看一张色谱图，就断定杂质来源；

只看一个分子结构，就断定最佳色谱柱；

只看摘要，就总结出文章没有证明的结论；

只看一个检测结果，就判断样品不合格；

只看一个峰面积变化，就判断发生降解；

没有实验验证，就给出确定性机制。

7、遗漏关键条件型

有时模型的结论本身不是完全错，但缺少重要前提，导致实际使用时会误导。

典型表现

说“可以采用某方法”，但不说明适用范围；

说“某限度可接受”，但不说明暴露量和日剂量；

说“某柱可替代”，但不说明关键峰分离度；

说“某添加剂可改善峰形”，但不说明检测器兼容性；

说“可用于 LC-MS”，但不说明挥发性盐要求。

8、概念混淆型-幻觉最典型的语言特征

模型在不确定时，仍然用非常确定的语气回答。

典型表现-这些词在专业场景里都要警惕

“一定是……”

“必然导致……”

“官方明确要求……”

“国际通用做法是……”

“该文献证明……”

“无需进一步验证……”

“可以直接用于申报……”

9、虚假确定性-幻觉最典型的语言特征

模型在不确定时，仍然用非常确定的语气回答。

典型表现-这些词在专业场景里都要警惕

“一定是……”

“必然导致……”

“官方明确要求……”

“国际通用做法是……”

“该文献证明……”

“无需进一步验证……”

“可以直接用于申报……”

四、AI幻觉如何避免或缓解？

幻觉是大模型的系统特性，无法彻底根治，但能有效控制。

目前主流 AI 模型的幻觉率并没有一个统一固定值，强烈依赖任务类型、评测口径、模型版本和是否接入检索/工具。一般而言，在有上下文依据、任务边界清楚的日常问答或摘要场景中，领先模型的幻觉率可控制在个位数；但在知识密集型、长尾事实、专业领域、文献引用和法规核查等任务中，错误率可能升至两位数，部分评测可达到 10%–30%甚至更高。因此，专业任务中仍需要来源核查、交叉验证和人工审阅。

缓解策略-将幻觉率降到可接受水平（可类比制剂中的NDSRI的控制策略）

1、提示词控制-加入“不知道”条款：管住 AI“爱瞎编、爱脑补、爱装懂，不会说不知道” 的毛病。如：不要只问：“总结一下亚硝胺指导原则。”应改成：“请严格基于我提供的原文总结，不得添加外部信息。每条结论后标注来自哪一章节。无法从原文确认的内容标为‘原文未说明’。”

2、强制引用来源-要求模型每条关键结论后都标注来源

3、使用检索增强生成（RAG）/联网搜索/上传原文-让模型先检索指定资料或联网搜索，再基于资料回答。对于法规、药典、文献、产品说明书、专利，不建议让模型凭记忆回答。应提供原文 PDF、截图、链接，或要求联网核查。

但注意：RAG 也不能完全消除幻觉。它只是把模型输出锚定到资料上，仍然可能出现引用错位、断章取义、过度总结。

4、交叉验证-不要只相信 AI 给出的单一答案，而是用多个独立来源或不同方法互相核对，确认结论是否可靠。因为AI 最危险的不是“明显答错”，而是它可能把错误内容说得非常专业、非常流畅、非常像真的。

交叉验证不是“多问几个 AI”，这不一定可靠，因为不同模型可能来自相似训练数据，也可能犯同类错误。当然了使用多个 AI 模型交叉验证，也是一个很好的防幻觉策略；但只能提高发现错误的概率，不能证明答案一定正确。

最稳妥的做法是：多模型独立回答 → 比较分歧 → 让模型挑错 → 回到官方原文/文献/数据核查 → 人工定稿。

5、人工复核-无论使用哪类模型，AI 都只能作为辅助工具，关键结论仍然需人工复核、来源核查和专业判断。

五、国内外通用大模型交叉验证缓解AI幻觉的测评

5.1、测试方式-对AI回答内容进行不同AI模型的交叉验证

5.2、测评模型-均为网页版，开启思考模式，联网搜索，测评的AI模型为本文发表时间时的最新版本（多版本选择最新，如qwen3.7max）
豆包：https://www.doubao.com/chat/
千问：https://www.qianwen.com/
kimi：https://www.kimi.com/
Deepseek：https://chat.deepseek.com/
MiniMax：https://agent.minimaxi.com/
文心一言:https://yiyan.baidu.com/
腾讯元宝:https://yuanbao.tencent.com/chat
阶跃AI（事实核查功能）：https://chat.stepfun.com/chats/new
智谱清言:https://chatglm.cn/
秘塔:https://metaso.cn/
秘塔（事实核验功能）：https://metaso.cn/fact
扣子:https://www.coze.cn/

Gork:https://grok.com/

Chatgpt：https://chatgpt.com/

Gemini:https://gemini.google.com/

Perplexity：https://www.perplexity.ai/

5.3、测评内容及评价标准

提示词："核查信息真实性：核心文件：《化学药品中亚硝胺杂质研究技术指导原则（试行）》（2022年12月发布，2023年配套发布实施问答）关键原文（官方英文版节选）： 2.1 Basic Principles of Risk Assessment Applicants shall conduct a comprehensive assessment of the potential sources of nitrosamine impurities based on the API synthetic process, formulation process, excipients, packaging system, and storage conditions. For identified potential nitrosamine impurities, stratified risk assessment shall be carried out according to whether the structure is clear and whether carcinogenicity data are available. 2.2 Acceptable Intake Limits For structurally identified N-nitrosamine impurities, if no compound-specific carcinogenicity data are available, the acceptable daily intake (ADI) for lifetime exposure shall refer to the requirements of ICH M7(R1) and relevant FDA guidelines, with a default limit of 1.5 μg/day. For non-volatile N-nitrosamines, the limit can be further tightened to 26.5 ng/day. For volatile N-nitrosamines, the acceptable limit of 1000 ng/day specified in FDA guidelines may be referred to. For nitrosamine impurities with unclear structures, the default acceptable limit is 1.5 μg/day. If the risk assessment indicates a higher carcinogenic risk, further structural identification shall be conducted, and a stricter limit shall be established."

此内容是某AI（具体不说了）生成的CDE关于亚硝胺杂质控制的指导原则解读，存在明显错误。

错误1：指导原则发表年份不对

错误2：2023年并没有发布实施问答

错误3：此指导原则没有官方英文版（CDE指导原则一般都为中文），所谓英文要么是由AI完全杜撰（包括拼凑），要么是中文指导原则翻译为英文。

测评各通用AI模型对以上错误是否可以明确指出，对具体错误细节逐条核实，给出明确的结论。

5.4、测评结果与总结

AI分析内容较长，仅列举结论部分和整体评价。

模型名称	核查结论	是否指出英文为编造
豆包	核心文件信息错误	是
千问	亚硝胺类杂质控制相关指导文件的发布时间和核心内容存在明显错误	是
Kimi	经核查，您提供的文件信息及引文存在多处严重失实	是
Deepseek	用户提供的英文内容存在多处事实性错误和不符合中国官方文件原文的情况。总体而言，内容半真半假，存在虚构或严重错误	是
Minimax	用户提供的"关键原文"严重失实	是
文心一言	该英文节选基本准确，核心数据与官方文件一致，但有一处表述需注意	否
腾讯元宝	你这段「英文节选」不是NMPA/CDE《化学药物中亚硝胺类杂质研究技术指导原则(试行)》的官方条文，更接近把EMA/FDA框架下的数字（26.5ng/day、1000ng/day量级等）与ICHM7的通用TTC＝1.5µg/day混编后，硬套了一个CDE文件名壳的二次加工文本。不能直接当作中国官方法规依据来引用。	是
阶跃AI（事实核查功能）	本次核查共涉及16项关键陈述，其中8项判定为不可靠，4项判定为可靠，4项因证据不足或属于特定语境下的合理引申判定为基本可靠/无法判断	是
智谱清言	你给的这段英文节选，不是《化学药物中亚硝胺类杂质研究技术指导原则（试行）》的官方英文版，也不是该指导原则的准确翻译；其中关于“默认1.5μg/day、非挥发性26.5ng/day、挥发性1000ng/day”等关键数值与现行中国、FDA和ICH的官方要求不一致，属于明显错误或混用了其他指南。2.1节“风险评估基本原则”的表述，与中文原文的精神大体相符，但属于概括性改写，而不是逐字翻译。	是
秘塔	用户提供的"官方英文版节选"不是中国NMPA《化学药物中亚硝胺类杂质研究技术指导原则（试行）》的内容，而是来源于美国FDA及EMA等国外监管机构的指南	是
秘塔（事实核验功能）	共查验9项，6项已证实、2项查无实据、1项不属实	否
扣子	核查完了，结果挺让人无语的-这份"关键原文"基本上对不上CDE官方文件，里头掺杂了大量与真实文件相反或无关的内容	是
Gork	信息部分真实，但存在关键不准确之处	否
Chatgpt	你给出的这段“核心文件+官方英文版节选”真实性很低，不能作为官方原文引用。它混合了部分真实监管概念，但文件年份、文件名称、章节结构、限度表述和“官方英文版”均存在明显问题。	是
Gemini	该信息严重失实，存在明显的虚构与常识性错误（极大概率为AI幻觉生成的伪造文本）	是
perplexity	你给出的这段“官方英文版节选”与现有公开原文不完全一致，且有几处明显混写或转述偏差	是

明显翻车：文心一言（百度正常发挥）

没有指出英文杜撰：Gork、秘塔（事实核验功能）

利用多款AI模型交叉验证来缓解AI幻觉的方式可行性：非常可行，但不能当作“事实核查的最终结论”。多模型交叉验证的核心价值：利用不同模型在训练数据、推理路径、检索能力、回答风格上的差异，发现明显错误、逻辑漏洞、引用异常和过度自信结论。它适合用于初筛、找疑点、提高警觉性，但不能替代原始文献、法规原文、药典标准、审评指导原则和人工专业判断。

核心三原则：

1、多模型一致 ≠ 事实正确。 2、多模型不一致 = 必须核查。 3、专业结论最终必须回到原始证据。

如果觉得文章不错，请帮忙转发、点赞，