AI系列研究丨①话说 Token:从词元到道元,理解大模型语言生成的第一道门
前几天我们在《话说 Token》一文中,聊到大模型如何把人类语言拆解成可以计算、理解和生成的基本单元。Token 是大模型理解世界的“入口”,但 Token 本身并不是凭空产生的。它背后依赖的是大量真实世界的数据,以及对这些数据进行采集、清洗、治理和标注的系统性工作。
对非技术人士来说,理解大模型并不一定要先学算法,而是可以从一个更基础的问题开始:模型“吃进去”的数据从哪里来?这些数据如何变得干净、有序、可信、可用?为什么同样是数据,有些能训练出高质量模型,有些却只能制造噪音?
本文的核心问题 如果说 Token 是模型理解信息的“入口”,那么数据采集、清洗治理和标注,就是把现实世界的信息变成模型可学习、可分析、可应用资产的前置工程。 |
所以,今天我们接着《话说 Token》的话题,往前再追一步,聊聊大模型时代最底层、也最容易被忽视的一项工作:数据采集、数据清洗与治理,以及数据标注。
01
数据采集:把现实世界变成可计算的数据
数据采集,是 AI 数据链条的起点。它的任务不是“凭空创造数据”,而是把现实世界中的业务活动、设备状态、交易行为、文本信息、图像视频等,转化成可以被系统存储、计算和分析的数字化数据。
但要注意,采集只是把数据“拿到手”,并不等于已经产生价值。很多企业的问题并不是没有数据,而是数据散落在不同系统里,口径不一、字段缺失、权限混乱,最后既无法用于经营分析,也无法进入模型训练。

图 1:数据从采集到模型应用的基本路径
1. 五种常见数据采集方式

图 2:五种主要采集方式的适用场景、价值与风险
表 1:五种数据采集方式的比较
采集方式 | 通俗解释 | 典型场景 | 主要价值 | 主要风险 |
传感器采集 | 把温度、压力、图像、气体浓度等现实世界信号转成数字数据 | 农业大棚、工业安全、设备监测、交通监控 | 实时、连续、贴近生产现场 | 硬件成本、维护成本、数据稳定性 |
API 采集 | 通过系统接口按规则直接调用数据 | 金融行情、SaaS 系统、电商平台、企业 ERP/CRM | 速度快、格式规范、可靠性高 | 依赖授权、接口变更、平台限制 |
网络爬虫 | 自动访问网页,抓取公开页面中的信息 | 新闻资讯、舆情、价格、招聘、公开政策 | 覆盖面广、成本相对低 | 版权、隐私、反爬、合规边界 |
数据库日志采集 | 记录用户操作、交易行为和系统运行轨迹 | 金融交易、风控审计、运维监控、安全防护 | 真实反映业务过程,适合风控和审计 | 数据量大、权限敏感、治理要求高 |
人工录入 / 导入 | 人工填报,或把Excel、CSV 等结构化文件批量导入系统 | 小批量特殊数据、历史数据迁移、企业内部台账 | 灵活,可补充机器难以采集的数据 | 效率低、易出错,需要校验和备份 |
2. 哪些采集方式更有价值?

图 3:不同采集方式的商业价值判断
从投资和产业判断角度看,不能只看一家企业“有没有采集能力”,更要看这种能力是否进入客户的核心业务流程。低端人工录入和普通爬虫,更多属于外包或工具属性,利润率和壁垒通常有限;API 采集和数据库日志采集更接近企业核心系统,如果能形成稳定接口、权限体系和数据治理能力,商业价值更高。
传感器采集通常与硬件、场景、运维绑定,适合工业、农业、能源、安防等产业数字化场景,进入门槛较高。真正值得长期关注的,不是单一采集动作,而是“采集 + 清洗 + 存储 + 应用 + 反馈”的闭环能力。
产业判断 采集能力越贴近客户核心业务、越能形成持续接口和数据沉淀,价值越高;如果只是一次性抓取、录入或搬运数据,通常更接近工具或人力外包。 |
02
数据清洗与治理:把“能拿到的数据”变成“能相信的数据”
数据清洗像“原材料质检”,负责把错误、重复、缺失、格式混乱的数据处理干净;数据治理像“仓库制度和门禁系统”,负责明确数据标准、权限、来源、质量、合规和可追溯性。
对 AI 来说,数据清洗和治理不是后台杂活,而是决定模型能不能可靠应用的基础工程。脏数据进入模型,最后出来的往往就是错误判断、错误预测和错误决策。

图 4:数据清洗和治理在 AI 数据链条中的位置
1. 数据清洗和治理主要做什么?
数据清洗和治理,本质上是把原始、杂乱、不完整、不可控的数据,整理成干净、统一、安全、可追溯、可复用的数据资产。它不仅要解决“数据能不能用”的问题,还要解决数据是否准确、是否完整、是否口径一致、是否符合隐私与合规要求,以及未来能否被持续复用和审计。
表 2:数据清洗与治理的主要工作
环节 | 主要内容 | 典型做法 | 商业价值 |
去重与去噪 | 剔除重复、无效、乱码、广告等低质量内容 | 去重复记录、删除异常文本、过滤无效样本 | 减少模型误学和分析偏差 |
纠错与补缺失 | 处理明显错误和缺失字段 | 异常值识别、均值 / 规则填充、人工复核 | 提高数据完整性和可用性 |
格式与口径统一 | 让不同系统的数据可以放在一起比较 | 统一日期、币种、单位、商品编码、客户 ID | 支持跨部门经营分析和产业研究 |
脱敏与合规处理 | 按规则隐藏或隔离敏感信息 | 手机号脱敏、身份证脱敏、权限分级、授权留痕 | 降低隐私、合规和数据泄露风险 |
数据标准与元数据管理 | 明确字段含义、来源和使用方式 | 字段字典、数据目录、数据血缘、版本管理 | 让数据可查、可复用、可审计 |
质量监控与权限管理 | 持续监控质量,并控制谁能看、谁能改、谁能调用 | 质量评分、告警、访问控制、日志审计 | 支撑长期运营和数据资产化 |
2. 不同场景下的数据治理重点
不同行业的数据问题并不相同。金融更强调实时性、权限和审计;工业更强调设备编码、时间同步和质量追溯;投研场景则更关注来源可信度、时间戳、实体识别和去重。
表 3:不同场景下的数据清洗治理重点
行业场景 | 重点处理的数据问题 | 治理重点 | 可产生的业务价值 |
金融风控 | 交易异常、账户口径不一、设备和登录数据混乱 | 数据实时性、权限、审计、异常追踪 | 反欺诈、风险预警、合规检查 |
工业制造 | 设备数据缺失、传感器噪声、生产批次口径不统一 | 设备编码、时间同步、质量数据关联 | 预测维护、质量追溯、产线优化 |
零售 / 电商 | 用户、订单、库存、价格和营销数据分散 | 会员 ID 统一、商品编码统一、数据更新频率 | 精准营销、选品、库存预测 |
医疗 / 政企 | 数据敏感、权限复杂、来源多样 | 脱敏、授权、访问控制、全流程留痕 | 合规使用数据,提高服务和管理效率 |
产业研究 / 投研 | 新闻、公告、价格、招聘、专利等来源杂乱 | 来源可信度、去重、时间戳、实体识别 | 企业画像、趋势跟踪、风险预警 |
商业价值 清洗治理能力越接近客户核心数据系统,越能形成标准、权限和流程体系,商业价值越高;如果只是一次性清洗或人工整理,壁垒通常有限。 |
03
数据标注:给模型提供可学习的“标准答案”
数据标注,就是给原始数据贴上“标准答案”。比如,图片里哪里是车辆,合同里哪句话是违约责任,客服对话中用户是不是想退款,医学影像中哪里可能存在病灶。模型正是通过这些带标签的数据学习规律。
数据标注并不是简单“打标签”。真正有价值的标注,需要清晰的标注标准、稳定的质检流程、行业专家参与,以及标注结果和模型效果之间的反馈闭环。

图 5:数据标注从任务定义到模型反馈的生产流程
1. 常见数据标注类型
表 4:常见数据标注类型及价值判断
标注类型 | 通俗解释 | 典型场景 | 价值判断 |
文本标注 | 给文字打标签,或抽取关键信息 | 合同条款、客服意图、舆情情绪、金融公告 | 适合大模型、知识库和投研自动化 |
图像标注 | 在图片中框出、圈出或分类目标 | 工业缺陷、安防识别、商品识别、医学影像 | 与视觉 AI 和质检场景强相关 |
视频标注 | 对连续画面中的行为、轨迹和事件做标注 | 交通监控、自动驾驶、仓储作业、安防事件 | 成本高,但在动态场景中价值高 |
语音标注 | 把语音转文字,并标出说话人、情绪或意图 | 客服质检、会议纪要、电话销售、语音助手 | 适合客服、营销和办公自动化 |
3D 点云标注 | 在三维空间中识别车辆、行人、道路和障碍物 | 自动驾驶、机器人、智慧交通 | 技术和工具门槛较高 |
偏好 / 反馈标注 | 对模型答案进行打分、排序或纠错 | 大模型对齐、RLHF、智能客服优化 | 直接影响大模型回答质量 |
专家标注 | 由医生、律师、工程师、金融分析师等专业人士标注 | 医疗、法律、金融、工业、审计 | 壁垒最高,成本高但数据价值也最高 |
2. 数据标注方法举例
分类标注,是从给定标签集中选择合适标签分配给被标注对象,适用于文本、图像、语音、视频等多种数据。比如对一句话标注“人物、动作、地点、时间”,或对一张图片标注“车辆、行人、道路、商店”。

图 6:分类标注示例
标框标注,是从图像中框选出需要检测的对象,常见于图像识别、工业质检、商品识别、安防识别等场景。标框可以是四边形,也可以是更复杂的多边形,用来处理遮挡、细线条或不规则目标。

图 7:标框标注示例
区域标注比标框标注更精细,强调目标边界,常用于道路识别、医学影像、地图识别等场景。描点标注则把人脸、肢体、关节等关键位置用点位标出来,常用于姿态识别、运动分析、人机交互等场景。

图 8:区域标注示例

图 9:描点标注示例
除了上述标注方法,还有很多个性化任务。例如,从新闻、公告或长文章中提取关键信息并生成摘要;对大模型回答进行排序、打分、纠错;对金融风险事件、法律条款、医疗病灶等专业内容进行专家标注。这些任务往往主观性更强,也更依赖行业知识和质检标准。
04
数据标注的商业价值在哪里?
普通标注更接近劳动力外包,壁垒低,容易陷入价格竞争;高质量标注平台则具备工具、流程、质检和交付能力,效率和稳定性更强;专家标注绑定医疗、金融、法律、工业等行业知识,数据稀缺性更高,客户替换成本也更高。
从长期看,最有价值的不是“标注一次、交付一次”,而是“标注 + 模型应用 + 反馈数据回流”。因为模型越用,错误样本越清楚,数据集越精准,数据资产越能持续增值。
1. 如何判断标注公司的质量?
表 5:标注公司质量判断框架
判断点 | 要问的问题 | 为什么重要 |
行业专业性 | 标注员是否懂医疗、金融、工业、法律等专业知识? | 决定标注结果是否真正可用于高价值场景 |
标注标准 | 有没有清晰规则、样例库和边界案例处理机制? | 标准越清晰,数据一致性越高 |
质检体系 | 是否有抽检、复核、多人一致性评估和专家仲裁? | 直接决定训练数据质量 |
工具能力 | 是否有自动预标注、任务分发、版本管理和质量追踪? | 决定效率和规模化交付能力 |
数据安全 | 是否支持私有化部署、权限控制、脱敏和操作留痕? | 金融、医疗、政企客户尤其关注 |
闭环能力 | 标注结果能否与模型效果、业务反馈持续打通? | 决定是否能从项目服务升级为长期数据资产 |
2. 不同场景下的数据标注重点
表 6:不同场景下的数据标注重点
行业场景 | 需要标注的数据 | 典型任务 | 商业落点 |
金融 / 投研 | 公告、研报、新闻、交易异常、客户对话 | 实体识别、风险事件分类、情绪判断、问答偏好标注 | 投研自动化、风险预警、合规审查 |
工业制造 | 缺陷图片、设备声音、传感器异常、生产记录 | 缺陷识别、异常分类、质量原因归因 | 视觉质检、预测维护、良率提升 |
医疗健康 | 影像、病历、检验报告、问诊记录 | 病灶区域、疾病分类、结构化病历 | 辅助诊断、病历质控、医疗知识库 |
自动驾驶 / 机器人 | 道路图片、视频、点云、行为轨迹 | 车辆 / 行人 / 障碍物识别,轨迹标注 | 感知模型训练、路径规划、安全验证 |
客服 / 电商 | 客服录音、聊天记录、商品图片、用户评价 | 意图识别、情绪识别、商品属性、售后原因 | 智能客服、推荐系统、营销优化 |
判断标准 数据标注越依赖专业知识,越能与客户业务反馈闭环结合,价值越高;如果只是简单框图、分类、录入,通常更接近人力外包。 |
05
从产业角度看,真正的门槛在哪里?
AI 应用的上层场景看起来很热闹,但底层仍然离不开数据工程。判断一家数据相关企业是否有长期价值,可以重点看五个问题:
·它是否进入客户的核心业务流程,而不是只做外围工具或一次性项目?
·它是否能把采集、清洗、治理、标注、存储、应用和反馈打通,形成闭环?
·它是否具备行业知识,例如金融风控、医疗影像、工业质检、法律合同等专业能力?
·它是否建立了标准、权限、质检、审计和合规体系,能承接高敏感、高价值数据?
·它的数据是否能够长期沉淀、复用和迭代,而不是项目结束后价值就消失?
真正有壁垒的数据公司,往往不是“数据搬运工”,而是能把客户真实业务中的数据持续转化为可分析、可训练、可调用、可审计、可复用的数据资产。
这也是为什么,在大模型时代,数据采集、清洗治理和标注看起来不如模型发布那么耀眼,却可能是决定 AI 能否真正落地的关键环节。模型能力决定上限,数据质量决定下限;而数据资产化能力,决定一家企业能否把 AI 从一次性工具变成长期生产力。
下一篇我们将对有价值的数据标注类的数据服务公司进行梳理和解析。

海思咨询是一家立足于粤港澳大湾区、面向全国及东南亚市场的专业企业管理咨询机构。
HiSi Consulting is a professional enterprise management consulting firm based in the Guangdong-Hong Kong-Macao Greater Bay Area, serving the national and Southeast Asian markets.
公司核心团队汇聚了来自国内知名投资咨询公司、大型会计师事务所、权威估值机构及国际4A品牌营销公司的资深专家,具备跨领域、复合型的专业背景与丰富的行业实践经验。
The company's core team comprises seasoned experts from leading domestic investment advisory firms, major accounting firms, authoritative valuation institutions, and international 4A branding and marketing agencies, bringing together cross-disciplinary expertise and extensive industry experience.
海思咨询始终以“专业、严谨、责任、共赢”为服务理念,致力于为企业与投资机构提供高附加值、定制化的战略支持。
HiSi Consulting consistently adheres to a service philosophy of "Professionalism, Rigor, Responsibility, and Win-Win Collaboration," committed to providing high-value-added, customized strategic support for enterprises and investment institutions.
在投资前端,我们帮助企业厘清战略方向,开展深度的行业研究与市场分析;
At the pre-investment stage, we assist clients in clarifying strategic direction and conducting in-depth industry research and market analysis.
在投中与投后阶段,提供专业的投融资顾问、财务尽调、估值分析及投后管理体系搭建服务,助力企业实现价值提升与风险管控。
During the investment and post-investment phases, we offer professional services such as investment and financing advisory, financial due diligence, valuation analysis, and post-investment management system development, supporting enterprises in value enhancement and risk control.
同时,公司亦专注于并购重组咨询、项目投资价值与可行性研究,以及覆盖中国与东南亚区域的财税合规与优化解决方案,为企业拓展海内外市场提供扎实的决策依据。
Furthermore, the company specializes in M&A and restructuring advisory, investment value and feasibility studies for projects, as well as tax and financial compliance and optimization solutions covering China and Southeast Asia, providing solid decision-making foundations for businesses expanding domestically and internationally.
依托全周期业务经验,海思咨询的服务已广泛覆盖智能制造、交通运输、工业互联网、机器人、生物医药、互联网平台、新零售、新能源等多个前沿行业领域,同时对国内市场兴起的S基金拥有丰富的咨询经验,能够为各类投资者提供精准、务实的决策支持。
Leveraging its full-cycle business experience, HiSi Consulting's services span a wide range of cutting-edge industries, including intelligent manufacturing, transportation, industrial internet, robotics, biopharmaceuticals, internet platforms, new retail, and new energy. Additionally, the firm has extensive advisory experience in the emerging domestic secondary fund (S fund) market, offering precise and practical decision-making support to various investors.
免责声明
本微信公众号为海思(广州)企业管理咨询有限公司(以下简称“海思咨询”)官方公众号,旨在提供公司新闻与有关行业研究的相关信息,对转载、分享、陈述、观点保持中立,目的仅在于传递更多信息,版权归原作者所有。如涉及作品版权问题,请与本公众号联系(邮箱:16645443@qq.com),我们将尽快删除。
1、本公众号保留对宣传资料修改的权利,敬请留意最新资料。
2、本公司保留在法律范围内对本资料进行解释的权力。
3、任何个人/单位转载、摘录、刊用海思咨询任意官方平台的文章、图片、视频等原创内容,均需注明来源;若未经本公司许可/未注明来源随意转载者,将追究相应法律责任。

夜雨聆风