历史最全《大型语言模型数据集》全面综述pdf及444个数据集分享,涵盖预训练、指令微调、偏好、评估

介绍
本文旨在深入探讨大型语言模型(LLM)数据集,这些数据集在LLM的显著进步中发挥着关键作用。类似于法学硕士发展的根系,这些数据集被视为维持和培育LLM发展的基础设施。
本书免费获取地址:
关注微信公众号“大模型科技说”回复关键字“ldt24”获取下载地址。
因此,对这些数据集进行审查成为研究的一个重要主题。为了解决当前LLM数据集缺乏全面概述和深入分析的问题,本次调查从五个角度对LLM数据集的基本面进行了整合和分类:(1)预训练语料库;(2)指令微调数据集;(3)偏好数据集;(4)评估数据集;(5)传统自然语言处理(NLP)数据集。该调查揭示了当前面临的挑战,并指出了未来研究的潜在途径。此外,还提供了对现有可用数据集资源的全面回顾,包括来自444个数据集的统计数据,涵盖8个语言类别,涉及32个领域。数据集统计中包含了20个维度的信息。预训练语料库的总数据量超过774.5 TB,其他数据集包含超过7亿个实例。我们的目标是展示法学硕士文本数据集的整体概况,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。
内容截图








本书免费下载地址
关注微信公众号“大模型科技说”回复关键字“ldt24”获取下载地址。
往期精品内容推荐
2024最新,李宏毅深度学习教程pdf免费分享!绝对值得反复阅读的神书!
深度数学简书-《深度学习论文写作之数学符号规范表示合集》免费pdf分享
双语斯坦福CS224W《图机器学习》课程(2021) 视频及ppt分享
李宏毅最新-《深度学习/机器学习课程》课程视频及ppt免费分享
经典必学-台大林智仁中文版-《深度学习优化方法》课程视频及ppt分享
Ml新课-《机器学习核方法》课程(2021) 视频及ppt分享
【中文字幕】加州理工《数据学习:机器学习课程》视频及ppt分享


AII大模型


AII大模型

商务合作请联系微信号:AI_Knowledge_Zone
夜雨聆风
