今日新闻


近日,全民认证科技(杭州)有限公司联合浙江大学软件学院关于“有效解决模型幻觉”的创新科研成果,成功在人工智能领域国际顶级会议AAAI 2026发表。

AAAI是由美国人工智能促进会主办、中国计算机学会(CCF)认定的A类顶级国际会议,本届赛事首次走出北美、落地新加坡,规模与投稿量创下历史新高,全球累计投稿23680篇,仅4167篇论文成功录用,录用率低至17.6%,集聚全球顶尖AI科研力量,学术竞争极为激烈,此次成果入选充分彰显了技术方案的先进性与权威性。

论文(图)
01 直击行业痛点:
多模态大模型“幻觉”制约产业落地

多模态大模型凭借强大的图文理解、场景推理能力,已广泛应用于各类人工智能场景。但“幻觉问题”始终是限制其规模化落地的核心瓶颈:模型生成的文本、推理结果看似逻辑通顺、表达流畅,却与真实视觉场景严重不符,频繁出现错识物体、编造场景细节、误判画面信息等问题。
尤其在强化学习训练过程中,大模型的幻觉缺陷会被持续放大,大幅降低模型推理的准确性与可靠性。这一问题直接阻碍了多模态大模型在公共安防、社会治理、民生服务等安全关键场景的落地应用,成为行业亟待攻克的核心技术难题。
02 深挖核心根源:
首次锁定模型幻觉三大核心病根

针对多模态大模型强化学习训练中的幻觉难题,双方联合研究团队开展系统性溯源分析,层层拆解模型推理与训练逻辑,首次精准归纳出引发幻觉问题的三大关键核心因素,为靶向攻坚奠定了理论基础。
一是视觉表征错误,引发连锁推理偏差。模型强化学习训练高度依赖链式视觉推理指导决策,若初始视觉场景描述存在细微偏差,错误信息会在后续多轮推理中持续放大、固化,形成“一步错、步步错”的连锁问题。同时,模型易将冗余、无效的推理内容判定为核心依据,最终输出脱离真实场景的错误结论。
二是探索多样性不足,加剧决策误判风险。在策略优化训练阶段,模型极易形成固定输出模式,探索能力单一、场景适配性不足。面对模糊、复杂的真实场景时,模型往往过度自信,盲目输出错误判断,大幅提升幻觉发生概率。
三是样本级训练冲突,导致参数迭代不稳定。模型训练过程中,不同样本的优化迭代会产生相互干扰,单一样本的参数更新会间接影响其他样本的预测逻辑,催生虚假数据关联问题,造成模型参数迭代紊乱、训练动态失衡,显著加剧幻觉风险。
03 靶向攻坚!
创新三模块框架破解幻觉难题

针对上述三大技术症结,联合研究团队对症下药、精准攻坚,创新性搭建起三位一体的多模态大模型抗幻觉优化框架,从推理逻辑、样本训练、参数迭代三个维度全面优化模型性能,系统性解决幻觉问题。

视觉基础推理增强,夯实真实推理根基
团队重构模型推理逻辑,在传统“思考-回答”流程基础上,新增“场景规划-视觉描述”前置环节,同时创新引入描述奖励机制。通过单独核验视觉描述内容的真实性、完整性,判断其是否足以支撑精准回答,从源头强化视觉信息与文本推理的精准对齐,确保所有模型输出均扎根于真实视觉证据,杜绝无依据编造内容。

奖励方差引导样本选择,激活模型探索潜能
为解决模型探索单一、固化的问题,研究团队基于模型奖励分布的均值与方差,对训练样本进行精细化分类筛选。重点选取高不确定性、高方差样本开展专项训练,有效打破模型固有输出“舒适区”,充分激发模型场景探索能力,引导模型基于真实数据形成精准、自信的预测结果,减少主观误判。

冲突感知正则化,稳定训练迭代过程
针对样本训练冲突问题,团队引入神经正切核(NTK)相似性作为核心评判指标,结合InfoNCE损失函数调控样本间的交互关系。通过算法优化,让相似度低的样本充分交互学习,让过度同质化的样本相互剥离,平衡样本训练关系,既保留有效学习增益,又彻底消除样本干扰带来的参数波动,稳定模型训练动态。
权威评测验证:
模型抗幻觉能力达开源最优水平

为验证框架的有效性与通用性,研究团队在MMVU、VideoHallucer、POPE、MMBench等多个国际权威多模态评测基准上开展全方位测试。实验结果充分证明,该创新框架可显著降低多模态大模型的幻觉发生率,在视频理解、场景精准推理、抗幻觉核心能力上,均达到同期开源模型最优水平。
同时,该优化方案无需牺牲模型通用泛化能力,在大幅提升模型视觉忠实度、推理鲁棒性的同时,有效解决了强化学习训练不稳定的行业痛点,适配各类复杂真实场景的落地需求。
全民认证作为国内领先的物理空间数据智能服务商,深耕数字身份与智能物联领域,始终坚持以技术创新驱动产业发展。此次与浙江大学软件学院的联合研究,是双方深化产学研协同的重要里程碑。未来,双方将持续推进相关技术在公共安全保障、民生服务守护、基层综合治理等场景中的落地应用,让人工智能不仅“能说会道”,更“言之有据”。
往期推荐
| |||
| |||
| |||
|

夜雨聆风