每天一个 AI 术语 10
数据集(Dataset)
模型看过什么,往往决定它能学会什么
上一篇:推理(Inference)|下一篇:训练集(Training Set)

上一篇我们讲了推理:模型接收一个新的输入,使用已经学会的规律进行计算,再给出预测、推荐或回答。
但模型为什么认识猫、理解句子、分辨声音?这些能力并不是凭空出现的。在学习阶段,模型需要接触大量例子,从中寻找反复出现的模式。
这些被集中收集、按照任务整理起来的例子,就构成了数据集(Dataset)。
数据集到底是什么
数据集不是某一种固定格式。它可以是一批图片、一组对话、一段段录音、传感器记录、商品信息,也可以是由多种形式混合组成的数据集合。
关键不在于文件放得多不多,而在于它们是否围绕同一个目标被组织起来。例如,要让模型识别植物,数据集就需要包含不同植物的图片;要训练语音识别系统,数据集则需要声音以及与声音对应的文字内容。
数据集里有什么
数据集最基本的单位叫样本(Sample)。一张图片、一条评论、一段录音或一次传感器记录,都可以是一个样本。
有些数据集还会给样本配上标签(Label)或标注(Annotation)。标签告诉模型这个样本对应什么答案,例如图片里是猫还是狗;标注还可以更细,指出物体的位置、句子的情绪或声音出现的时间。
但不是所有学习方式都需要人工标签。大量文本模型可以先从未逐条标注的文字中学习语言规律,再针对具体任务使用更有针对性的数据进行训练。

一个数据集是怎样形成的
从原始数据到可用数据集,通常要经历一系列整理工作:
收集:从真实业务、公开资源、实验或人工制作中获得原始数据。 清洗:删除损坏、重复、无关或明显错误的内容。 标注:根据任务需要添加类别、答案、边界框或其他信息。 组织:统一格式,记录来源,并建立便于使用和追踪的结构。
这个过程往往比想象中更耗费时间。模型架构可以重复使用,但高质量数据通常需要结合具体场景持续收集、检查和维护。
数据越多,模型就一定越好吗
不一定。更多数据通常能提供更多例子,但前提是这些数据与任务有关,而且质量足够可靠。
如果数据里有大量重复内容、错误标签、模糊图片或互相矛盾的信息,数量增加可能只是让问题变大。相反,一份规模不算巨大、但覆盖合理且标注准确的数据集,往往更有价值。
检查维度 | 要问的问题 | 忽视后的影响 |
准确性 | 内容和标签是否正确? | 模型可能学到错误规律 |
覆盖度 | 是否包含真实场景中的主要情况? | 遇到少见场景时表现不稳 |
平衡性 | 不同类别和群体是否过度失衡? | 结果可能偏向样本更多的一方 |
时效性 | 数据是否仍能代表当前环境? | 模型可能依赖已经过时的规律 |
数据集会把偏差带给模型
模型从数据中寻找规律,也会继承数据里的缺口和倾向。如果某类情况出现得特别多,另一类情况几乎没有,模型就可能更擅长前者,而忽略后者。
例如,一个只在晴天拍摄的道路数据集,很难充分代表雨天和夜间环境;一份只包含少数表达方式的语言数据,也可能无法理解更广泛的人群和语境。

数据也有边界:隐私、版权和来源
数据可以帮助模型学习,但并不意味着任何数据都可以随意收集和使用。个人信息、医疗记录、私人对话等内容涉及隐私,需要合法授权和适当保护。
图片、文章、音乐和代码还可能受到版权或许可协议约束。建设数据集时,需要了解数据从哪里来、能用于什么目的、是否允许再次分发。
因此,一份负责任的数据集不仅要内容好,还要来源清楚、使用范围明确,并对敏感信息进行必要处理。
常见误区
误区一:数据集就是一个文件夹。文件夹只是存放方式,数据集还包括样本选择、格式、标签、来源和用途说明。
误区二:数据越多越好。数量重要,但相关性、准确性、覆盖度和平衡性同样重要。
误区三:标注是绝对客观的。很多任务需要人工判断,不同标注者可能理解不同,因此还要设计标准并检查一致性。
今天的小结
数据集是围绕特定任务收集和组织起来的一组样本。 样本可以是图片、文字、声音、表格或传感器记录。 部分数据集带有标签或更细致的标注,但并非所有数据都需要人工标签。 高质量数据要关注准确性、覆盖度、平衡性和时效性。 数据来源还涉及隐私、版权、许可和责任边界。

为什么下一篇讲“训练集”
现在我们知道:数据集是一组围绕任务整理好的样本。但在机器学习项目里,通常不会把所有样本都用来做同一件事。
有些数据要让模型反复学习,有些数据要帮助我们调整方案,还有一些数据必须留到最后,检查模型面对未见样本时是否真的有效。
其中,直接用于让模型学习和调整参数的那一部分数据,就叫训练集(Training Set)。它通常占据数据集中的较大比例。
下一篇预告:我们会讲训练集在训练过程中怎样被反复使用,以及为什么训练集和测试数据必须保持适当分离。
夜雨聆风