乐于分享
好东西不私藏

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

开源大模型微调框架 防止 过拟合 灾难遗忘

正在被 大模型微调 :过拟合、灾难遗忘
折磨的
小伙伴有福了

我们最近抽空开源Y-Trainer训练框架,git上可以下载源码,链接🔗在图6

📊 简介
📉 精准对抗过拟合: 专门优化,有效解决SFT中的过拟合难题。
🧩 突破遗忘瓶颈: 无需依赖通用语料,即可卓越地保留模型的泛化能力,守住核心能力的同时实现专项提升!
🏆 单卡强化学习:无需依赖参考模型、教师模型,仅需基础模型+奖励函数,即可稳定的进行强化学习训练。

🚀 核心算法特点(NLIRG)
避免灾难遗忘 : 灾难性遗忘通常是由过难语料导致,通过识别这些token,进行动态调整,可有效避免 。
防止过拟合 : 过拟合是由相似语料或者模型已经掌握的知识导致,通过识别这些token,进行动态调整,可有效避免 过拟合问题。
识别问题语料 : Y-Trainer算法通过模型内部信号,可以对语料进行质量评分,提早排查错误。
无需通用语料 : 传统的SFT通常需要混合一定比例通用语料,防止模型能力退化,Y-Trainer算法可在只使用垂直领域语料的情况下训练,并取得更好的效果。
无需语料平衡 : 传统的SFT通常需要平和不同语料的分布,我们的Y-Trainer算法,即使在语料分布很不均匀的情况下,依然能够稳定训练。

说人话就是,通过在训练过程动态调整每个token的loss,保证梯度准确,将模型已经学会的少学或者不学,对模型太难的悠着学,精细投喂,保证训练效果。
代价就是稍微有点慢。。。
#深度学习 #LoRA #机器学习 #SFT #模型微调教程 #互联网大厂
#信息化
#前沿AI
#人工智能
#强化学习

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 开源大模型微调框架 防止 过拟合 灾难遗忘
×
订阅图标按钮