每天一个 AI 术语 10数据集(Dataset)

每天一个 AI 术语 10

数据集（Dataset）

模型看过什么，往往决定它能学会什么

上一篇：推理（Inference）｜下一篇：训练集（Training Set）

图 1：数据集把大量、有组织的样本汇集起来，成为模型学习规律的基础。

先记住一句话：数据集，就是为某个任务收集、整理并组织起来的一组数据样本。

从上一篇“推理”接着看

上一篇我们讲了推理：模型接收一个新的输入，使用已经学会的规律进行计算，再给出预测、推荐或回答。

但模型为什么认识猫、理解句子、分辨声音？这些能力并不是凭空出现的。在学习阶段，模型需要接触大量例子，从中寻找反复出现的模式。

这些被集中收集、按照任务整理起来的例子，就构成了数据集（Dataset）。

数据集不是某一种固定格式。它可以是一批图片、一组对话、一段段录音、传感器记录、商品信息，也可以是由多种形式混合组成的数据集合。

关键不在于文件放得多不多，而在于它们是否围绕同一个目标被组织起来。例如，要让模型识别植物，数据集就需要包含不同植物的图片；要训练语音识别系统，数据集则需要声音以及与声音对应的文字内容。

一个简单区别：数据库强调怎样存储和查询数据，数据集强调哪些样本被选出来用于分析、训练或评估。

数据集最基本的单位叫样本（Sample）。一张图片、一条评论、一段录音或一次传感器记录，都可以是一个样本。

有些数据集还会给样本配上标签（Label）或标注（Annotation）。标签告诉模型这个样本对应什么答案，例如图片里是猫还是狗；标注还可以更细，指出物体的位置、句子的情绪或声音出现的时间。

但不是所有学习方式都需要人工标签。大量文本模型可以先从未逐条标注的文字中学习语言规律，再针对具体任务使用更有针对性的数据进行训练。

图 2：数据集由一个个样本组成，其中一些样本还带有类别、位置或其他标注信息。

从原始数据到可用数据集，通常要经历一系列整理工作：

这个过程往往比想象中更耗费时间。模型架构可以重复使用，但高质量数据通常需要结合具体场景持续收集、检查和维护。

不一定。更多数据通常能提供更多例子，但前提是这些数据与任务有关，而且质量足够可靠。

如果数据里有大量重复内容、错误标签、模糊图片或互相矛盾的信息，数量增加可能只是让问题变大。相反，一份规模不算巨大、但覆盖合理且标注准确的数据集，往往更有价值。

模型从数据中寻找规律，也会继承数据里的缺口和倾向。如果某类情况出现得特别多，另一类情况几乎没有，模型就可能更擅长前者，而忽略后者。

例如，一个只在晴天拍摄的道路数据集，很难充分代表雨天和夜间环境；一份只包含少数表达方式的语言数据，也可能无法理解更广泛的人群和语境。

图 3：覆盖均衡、内容清晰的数据更容易形成稳定规律；重复、缺失和噪声会让结果偏斜。

重要提醒：模型的偏差不一定来自一条明确规则，也可能来自数据中长期存在但没有被发现的不平衡。

数据可以帮助模型学习，但并不意味着任何数据都可以随意收集和使用。个人信息、医疗记录、私人对话等内容涉及隐私，需要合法授权和适当保护。

图片、文章、音乐和代码还可能受到版权或许可协议约束。建设数据集时，需要了解数据从哪里来、能用于什么目的、是否允许再次分发。

因此，一份负责任的数据集不仅要内容好，还要来源清楚、使用范围明确，并对敏感信息进行必要处理。

误区一：数据集就是一个文件夹。文件夹只是存放方式，数据集还包括样本选择、格式、标签、来源和用途说明。

误区二：数据越多越好。数量重要，但相关性、准确性、覆盖度和平衡性同样重要。

误区三：标注是绝对客观的。很多任务需要人工判断，不同标注者可能理解不同，因此还要设计标准并检查一致性。

图 4：完整数据集通常会按用途划分，其中最大的一部分直接供模型反复学习。

现在我们知道：数据集是一组围绕任务整理好的样本。但在机器学习项目里，通常不会把所有样本都用来做同一件事。

有些数据要让模型反复学习，有些数据要帮助我们调整方案，还有一些数据必须留到最后，检查模型面对未见样本时是否真的有效。

其中，直接用于让模型学习和调整参数的那一部分数据，就叫训练集（Training Set）。它通常占据数据集中的较大比例。

下一篇预告：我们会讲训练集在训练过程中怎样被反复使用，以及为什么训练集和测试数据必须保持适当分离。