

交叉学科
Interdisciplinary


2026年4月22日,英国赫瑞瓦特大学计算机科学家Micheal Lones在Cell Press细胞出版社旗下期刊Patterns发表一篇题为“Pitfalls and risks of generative AI in machine learning”的论文,指出使用生成式AI来设计、训练或执行机器学习系统中的步骤存在风险。尽管大型语言模型(LLM)能够扩展机器学习系统的能力,并降低成本和人力需求,但Lones警告说,使用这些模型会降低相关开发者和应用者的透明度和控制权,并增加恶意网络攻击、数据泄露以及对代表性不足群体的偏见等风险。


▲长按识别二维码阅读论文
“机器学习开发者需要意识到在机器学习中使用生成式AI的风险,并在能力提升与随之而来的风险之间找到合理的平衡。”Lones说,“鉴于生成式AI目前存在的局限性,我认为这明显是一个‘你能做某事并不意味着你应该去做’的例子。”
机器学习系统能利用算法从数据中识别模式,然后利用这些模式对新数据进行预测和决策。机器学习已经存在数十年,大多数人日常生活中都会接触到它,例如垃圾邮件过滤器、电商网站上的产品推荐以及社交媒体的信息推送等。Lones指出,在过去大约两年里,业界一直在推动将生成式AI(以大型语言模型的形式)融入机器学习系统,但这样做存在风险和局限性,开发者和公众都应该对此有所了解。
Lones探讨了生成式AI目前在机器学习中的4种应用方式:作为机器学习流程中的一个组件、用于设计和编写机器学习流程代码、用于合成训练数据,以及用于分析机器学习输出。Lones表示,所有这些应用都存在风险,如果大型语言模型在机器学习系统中承担多项任务,或者具备智能体特性——即能够自主使用外部工具解决问题——这些风险还会进一步加剧。
“如果你在机器学习工作流程或系统中以多种不同方式使用生成式AI,那么它们可能会以难以预测且难以理解的方式相互作用。我目前的建议是,避免在使用生成式AI进行机器学习时增加过多复杂性,特别是如果你所处的行业风险较高,会影响人们的生活时。”
最大的风险之一其实很简单:大型语言模型有时会犯错、做出糟糕的决策,以及编造信息。Lones指出,这些错误不一定可以预测,而且可能难以评估,因为大型语言模型的运作方式缺乏透明度,这给法律合规带来了额外的问题。
“在医疗或金融等领域,有法律规定必须能够证明机器学习系统是可靠的,并且能够解释它是如何做出决策的。一旦你开始使用大型语言模型,这就变得非常困难,因为它们太不透明了。”Lones说。
Lones建议机器学习开发者始终对大型语言模型生成的代码和输出进行人工评估。他还警告说,规模更大、远程托管的大型语言模型通常会存储和共享数据,这意味着使用它们会增加网络安全漏洞以及数据和敏感信息泄露的风险。
“让普通大众了解生成式AI系统的局限性很重要。企业会部署这些系统来削减成本等,这可能会改善终端用户的体验,但也可能带来负面后果,比如偏见和不公平。”Lones说。

相关论文信息

论文原文刊载于Cell Press细胞出版社期刊Patterns,点击“阅读原文”或扫描下方二维码查看论文

▌论文标题:
Pitfalls and risks of generative AI in machine learning
▌论文网址:
https://www.sciencedirect.com/science/article/pii/S2666389926000437
▌DOI:
https://doi.org/10.1016/j.patter.2026.101534

▲长按图片识别二维码阅读原文

Patterns现已加入Cell Press MJS多刊审稿!Cell Press Multi-Journal Submission(点击查看)的前身Cell Press Community Review模式于2021年推出。对于通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的作者,我们将提供稿件被多本期刊同时考虑的机会。超过80%通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的文章获得了至少一个或多个期刊的评审。
CellPress细胞出版社
推荐阅读




▲长按识别二维码关注细胞科学

夜雨聆风