乐于分享
好东西不私藏

AI 训练数据是“凭空学来的”?

AI 训练数据是“凭空学来的”?

  谣言:AI 训练数据是“凭空学来的”。

  真相:并非如此。

  人工智能,尤其是大语言模型,并不是无中生有地“自学”知识,而是依赖于大量真实世界的数据进行训练。这些数据来源广泛,包括公开的书籍、科学论文、新闻报道、公开的互联网内容等,经过整理、筛选和优化后,用来训练AI,使其能够理解和生成符合人类逻辑的内容。

  Al的学习过程并不像人类通过自身经历积累知识,而是依靠统计和模式识别,从大量文本中提取规律。例如,在训练过程中,AI 会学习语言结构、语法规则、上下文关联,甚至是特定领域的专业知识。但这些知识都来源于已有的数据,而非AI自己“凭空创造”出来的。

  当然,AI生成的内容并不意味着它拥有“智慧”或“思想”。它的回答是基于训练数据的概率计算,并非真正理解或推理。因此,Al的信息来源和准确性仍然需要人工验证和筛选。


来源:科学辟谣

审核:北京工业大学机器人工程专业负责人 北京人工智能研究院机器人研究中心主任 于乃功