写在前面:数据标注不只是“给AI打标签”。它正在从劳动密集型服务,转向知识密集型、工具平台化和数据资产化的生产体系。 |
——————————————————
01|数据标注不等于“AI民工”

很长一段时间里,数据标注被认为是AI产业链中“最苦最累”的环节。很多人对这个行业的印象是:人工外包、低毛利、拼人力、没技术、可替代性强。
这个判断有其现实基础,但在大模型时代,它已经不够准确。中国信通院《数据标注产业发展研究报告(2025)》指出,数据标注是连接数据资源、算法模型与实际应用场景的关键桥梁,是人工智能高质量数据集的核心生产力。
过去市场更关注模型、算法和算力;现在,越来越多行业开始意识到,高质量数据正在成为AI落地的关键瓶颈。可以说,模型能力决定技术上限,数据质量决定应用下限。
今天的标注任务,正在沿着两条路径发生变化。
第一条路径:从物理感知走向认知理解
标注不再只是识别“这是什么物体”,而是要判断“这段推理是否成立”、“这句话隐含什么情绪”、“多轮对话中哪一句是讽刺、哪一句是善意”。换言之,数据标注正在成为训练AI逻辑、判断和价值对齐的基础工作。
第二条路径:物理感知本身也在深化
为了满足自动驾驶、机器人和具身智能的训练需求,标注维度正在从传统二维图像,扩展到三维点云、多传感器时序数据,甚至触觉、力觉等具身智能数据。这本质上是在为AI构建理解真实物理世界的“感官系统”。
在通用场景中,AI预标注与合成数据正在快速崛起,以提升大规模数据生产效率;而在医疗、金融、法律、工业等高价值垂直领域,仍需要行业专家进行精细标注、复核与审核。行业整体正在从“劳动密集型”向“脑力密集型 + 工具平台化 + 数据资产化”转型。
——————————————————
02|数据标注行业为什么会出现价值分化?
数据标注行业之所以会出现明显的价值分化,核心原因在于:同样叫“标注”,背后对应的业务难度、数据价值、客户需求和商业模式完全不同。
在早期,大量标注工作确实以人工为主,例如图片框选、文本分类、语音转写、简单质检等。这类业务标准化程度较高,对行业知识要求不深,客户往往按件计费、按项目结算,供应商之间容易陷入价格竞争。
在这种模式下,企业收入增长很多时候依赖人力扩张:项目多了,就要招更多标注员;订单少了,人员成本又会形成压力。表面上看,公司做的是AI数据服务,实际上商业模式更接近传统外包。这样的公司很难形成持续壁垒,也很难获得高估值。
更重要的是,随着AI工具自身能力提高,低端标注正在被自动化压缩。过去需要人工完成的基础分类、简单框图、语音转文字、初步清洗,现在越来越多可以由模型先做预标注,再由人工复核。也就是说,AI不一定会消灭数据标注行业,但一定会淘汰大量低质量、重复性、低附加值的标注工作。
但与此同时,另一类数据标注的价值却在提升。医疗影像标注需要医生判断病灶边界和疾病特征;金融风控数据标注需要理解交易行为、风险事件和合规语境;法律合同标注需要理解条款含义、责任边界和争议点;工业质检标注也离不开对设备、工艺、缺陷类型和生产流程的理解。
这些场景下,标注已经不是简单“贴标签”,而是在把行业知识、业务规则和专家经验转化为模型可以学习的数据。真正稀缺的不是“会不会标”,而是“标得准不准、能不能用于真实决策”。
因此,数据标注行业的价值分化,本质上是从“劳动力密集型服务”向“知识密集型数据生产”的分化。
低端标注卖的是人力,高端标注卖的是专业判断;低端标注交付的是一个项目,高端标注沉淀的是一套可复用的数据资产。 |

还有一个更关键的分化点,是企业能否进入客户的核心业务流程。
如果一家标注公司只是临时承接外包任务,项目结束后和客户的连接也基本结束,那么它的价值主要体现在当期收入。但如果一家数据公司能够进入客户的模型训练、业务反馈、风控判断、工业质检、智能客服或知识库建设流程,它就不再只是供应商,而是逐渐成为客户数据体系的一部分。
一次性项目看收入,核心流程看壁垒。真正有价值的数据标注公司,往往不是单纯完成“标注动作”,而是能够帮助客户不断发现模型错误、补充高质量样本、优化数据标准、更新训练集,并把业务反馈重新转化为数据资产。
所以,数据标注行业未来不会简单地“变好”或“变差”,而是会加速分层:一部分公司继续停留在人力外包层面,承受价格竞争和自动化替代压力;另一部分公司则会向高质量数据生产、行业专家标注、数据治理平台和模型反馈闭环升级。
这也是为什么,同样是数据标注公司,有的看起来像外包公司,有的却可能成为AI时代的数据基础设施。

图1|数据标注行业价值分化图
——————————————————
03|如何判断一家数据标注公司有没有价值?
判断一家数据标注公司有没有价值,不能只看“人数多不多、客户多不多、场景多不多”。更重要的是看六个问题:客户是谁、场景是否高价值、是否有行业专家能力、是否有平台和工具能力、是否进入客户核心业务流程、财务质量是否健康。
以下选取六家公司作为样本进行对比:美国数据标注巨头Scale AI,以及国内的海天瑞声、标贝科技、数据堂、核数聚科技、文德数慧。
一看客户:谁在为高质量数据付费?
Scale AI:服务对象包括前沿AI实验室、大型科技企业、政府及国防客户。其价值不只是数据标注,而是进入了全球大模型训练、评估和对齐链条。其核心客户包括OpenAI、微软、Meta、英伟达等科技巨头以及美国军方。
海天瑞声:公司年报披露,其产品和服务获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国移动、中国科学院、清华大学等客户认可,累计客户数量超过1,200家。
标贝科技:更偏智能语音交互和AI数据服务,公开资料显示其服务客户覆盖腾讯、荣耀、中国联通等企业。
数据堂:致力于为人工智能和大数据领域客户提供训练数据集、数据采集与标注定制服务、标注平台部署等一体化数据解决方案,公开资料显示其客户覆盖互联网、金融、通信等行业。
核数聚科技:依托数据采集、数据标注和模型服务平台,覆盖具身智能、智能驾驶、语音语言和大模型等领域,公开资料展示的客户包括博世、Momenta、思必驰、商汤等。
文德数慧:自研数据标注与运营平台,支持AI预标注、人机协同、多级质检、过程追踪、数据回流与质量闭环,公开资料显示其客户覆盖华为、腾讯、字节跳动等。
从客户层级看,粗略排序为:Scale AI > 海天瑞声 > 数据堂 / 标贝科技 > 文德数慧 / 核数聚科技。该排序仅基于公开资料,不代表投资评级。 |
二看场景:是简单标注,还是高价值训练数据?
Scale AI:从早期自动驾驶数据标注,扩展到大模型训练、RLHF、模型评估、企业AI应用、政府和国防等场景,已不是单纯标注公司,而更接近AI数据基础设施公司。
海天瑞声:从智能语音数据起家,目前训练数据覆盖智能语音、计算机视觉、自然语言处理三大AI核心领域,应用于人机交互、智能家居、智能驾驶、智慧金融、智能安防等场景。
标贝科技:核心价值在语音。除数据采集、数据标注、成品数据集外,还提供语音识别、语音合成、声音复刻、定制音库、语音合成评测等能力。
数据堂:优势是训练数据集品类较广,覆盖具身智能、大模型、计算机视觉、语音识别、语音合成、OCR、发音词典、自然语言理解等方向,也提供多模态、激光雷达点云、街景、行为识别、身份识别等数据定制服务。
核数聚科技:偏语音、文本、图像和网络搜索等一站式数据定制,适合归入“多模态数据交付型公司”。
文德数慧:场景覆盖较广,同时具有内容审核和数据运营属性,业务涉及数据采集、清洗、标注、审核、运营和治理。
高价值场景不是“场景越多越好”,而是看是否进入模型训练、行业决策和客户核心流程。从这个角度看,Scale AI最强;海天瑞声、数据堂在训练数据层面较强;标贝科技在语音场景较强;文德数慧和核数聚科技仍需要进一步验证高价值场景收入占比。
三看专家能力:是否能把专业判断转化为数据?
Scale AI:专家能力体现在大模型反馈、模型评估和高端数据生产。它的价值不只是“人多”,而是能够组织不同层级的数据贡献者参与复杂模型训练和评估。
海天瑞声:在语音语言学和多语种方面有明显积累。截至2025年末,公司拥有超过300个语种/方言覆盖能力,并积累近140个多语种发音词典,累计词条数超过1,200万。
标贝科技:专家属性主要体现在语音合成、语音识别和声音产品化。它不是纯数据标注公司,而是围绕语音交互做技术产品、数据产品和工具平台。
数据堂:专家能力更分散,优势在多品类数据集和医疗、智能驾驶等定制数据方向。其业务方向具备行业化特征,但专家团队构成、专家审核机制和专家标注收入占比仍需进一步核实。
核数聚科技:公开强调国际语言学专家资源,语音和NLP能力较强;但医疗、金融、法律、工业等高壁垒专家标注能力仍需项目案例验证。
文德数慧:更偏“项目组 + 质检组 + 平台工具”模式。是否具备医生、金融分析师、法律专家、工业工程师等真正专家标注资源,需要通过人员结构和项目案例进一步确认。
从专家能力看,Scale AI和海天瑞声较强;标贝科技在语音领域较强;数据堂在多行业数据集方向有积累;核数聚科技、文德数慧需要看具体项目和人员结构。
四看平台工具:是否从人工交付走向人机协同?
Scale AI:平台能力最强,覆盖数据引擎、生成式AI平台、企业AI应用、政府AI应用等模块,强调从训练数据到AI系统落地的全栈能力。
海天瑞声:具备较强工具链能力。公司在智能语音、计算机视觉、自然语言处理等领域布局预标注算法,并在智能驾驶、大模型训练数据清洗与自动化标注、语音数据自动化清洗等垂直领域持续研发。
标贝科技:平台工具体系比较清晰,包含采集平台、3D点云标注平台、2D图像标注平台、语音合成标注平台、语音识别标注平台等。
数据堂:拥有自有数据标注平台和数据标注实训平台,同时提供高质量数据集建设、大模型、智能驾驶、智能医疗等解决方案。
核数聚科技:强调数据平台和私有化部署,公开资料中包括数据平台、平台服务、私有化部署、众包平台等模块。
文德数慧:展示AutoConnect智能标注平台和Nut-Wall智能审核平台,并称可提供SaaS化云服务和企业私有化部署。
平台能力不能只看“有没有平台”,而要看平台是否真正降低人工成本、提升交付稳定性、支持复杂数据,并打通模型反馈。 |
五看核心流程:是否成为客户数据体系的一部分?
Scale AI:已经进入全球AI模型公司的核心训练流程。它服务的是模型训练、评估、对齐和应用落地,而不是一次性数据处理。Meta投资Scale AI,也正说明高质量训练数据正在成为大模型竞争的关键资产。
海天瑞声:其训练数据被用于客户的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等产品相关算法模型训练过程,说明其参与客户算法模型训练。
标贝科技:进入核心流程的可能性主要在智能语音应用。如果客户采购的是语音合成、语音识别、声音复刻、语音评测等持续服务,标贝更容易进入客户产品流程;如果只是采集和标注项目,则更偏项目型交付。
数据堂:如果以训练数据集和数据定制服务进入客户模型训练,就具备核心流程属性。尤其在大模型、具身智能、智能驾驶、智能医疗等方向,如果服务持续迭代,就不只是外包,而是客户模型训练数据供应链的一部分。
核数聚科技与文德数慧:是否进入核心流程,需要看客户粘性。如果只是承接数据采集、标注、审核项目,壁垒有限;如果能提供私有化部署、长期数据治理、持续质检、模型评测和反馈闭环,才可能从供应商升级为客户数据基础设施的一部分。
判断标准很简单:一次性项目看收入,核心流程看壁垒。
六看财务质量
财务质量是区分“数据公司”和“人力外包公司”的关键。对于数据标注公司,不能只看收入增长,还要看毛利率、扣非利润、经营现金流、应收账款、客户集中度、采购成本和数据资源能否复用。
Scale AI:收入规模最大,但也出现新的结构性风险。公开报道显示,Scale AI 2024年收入约8.7亿美元;Meta于2025年投资约143亿美元并取得49%股权后,Scale AI估值约290亿美元。但这也带来客户独立性问题,尤其当客户同时是Meta竞争对手时,可能影响未来订单结构。
海天瑞声:2025年营业收入3.77亿元,同比增长59.00%;归母净利润1,411.85万元,同比增长24.54%;扣非归母净利润1,078.52万元,同比增长116.85%。但经营性现金流净额只有177.26万元,同比下降93.83%;整体毛利率为48.08%,较上年减少18.38个百分点。智能语音毛利率仍高达75.46%,但计算机视觉毛利率为27.62%,自然语言毛利率为41.40%,训练数据相关应用服务毛利率为21.00%。这说明不同数据业务的盈利质量差异很大,尤其视觉和定制服务扩张可能带来成本压力。
数据堂:2025年营业收入3.62亿元,同比增长约49.20%;归母净利润5,773.58万元,同比增长约216.99%;扣非净利润4,978.78万元,同比增长约216.07%;毛利率49.84%,加权净资产收益率28.19%。从利润表看,数据堂盈利修复明显,并体现出数据资源产品化和复用能力。但数据堂也不能简单认定为“财务质量完全健康”。2025年经营活动现金流净额约3,612.50万元,对净利润覆盖度约61%;应收账款和合同资产净额合计约占当年收入的24%;信用减值和资产减值明显增加;存货中数据资源规模较大,未来能否持续销售和复用仍需观察。因此,更准确的定位是:数据堂处于盈利修复后的改善验证期。
标贝科技、核数聚科技、文德数慧:由于不是上市或挂牌公司,公开财务数据有限,难以仅凭宣传资料判断财务质量。真正尽调时,需要重点看收入结构、毛利率、人员成本、研发投入、客户集中度、应收账款周期、平台收入占比和复购率。
——————————————————
04|六家公司代表的不同价值层级
如果把六家公司放在同一张图里看,它们并不是同一种公司,而是代表了数据标注行业从人力交付到数据基础设施的不同层级。
公司 | 定位 | 主要看点 | 需要关注的风险 |
Scale AI | 全球AI数据基础设施标杆 | 进入大模型训练、评估、对齐和政府AI应用核心流程 | Meta入股后的客户独立性与数据安全顾虑 |
海天瑞声 | 国内上市训练数据公司样本 | 多语种、语音数据、核心客户和公开财务透明度 | 毛利率下滑、现金流承压、采购成本和海外业务风险 |
标贝科技 | 智能语音技术 + 数据服务 | 语音识别、语音合成、声音复刻和语音数据产品化 | 财务透明度有限,场景相对集中 |
数据堂 | 新三板AI基础数据服务公司 | 数据资源产品化、训练数据集积累、2025年盈利修复 | 应收账款、数据资源存货、历史累计亏损及现金流匹配 |
核数聚科技 | 多模态数据交付与平台型服务商 | 语音、NLP、图像、众包平台和私有化部署 | 高价值场景收入占比和专家能力需验证 |
文德数慧 | 数据标注 + 审核 + 运营 + 治理服务商 | 内容审核、数据运营、智能标注与审核平台 | 人力外包属性、高毛利业务占比和客户复购需验证 |
——————————————————
05|真正的分水岭:谁在做劳务,谁在做资产?

从投资和产业研究角度看,这六家公司代表了数据标注行业的不同价值层级。
Scale AI代表全球AI数据基础设施的最高形态,它的价值来自进入大模型训练、评估和政府AI应用的核心流程;海天瑞声代表中国已上市数据服务公司的财务样本,既体现了高质量训练数据的市场需求,也暴露出成本、毛利率、现金流和客户结构压力;数据堂作为新三板挂牌公司,体现出老牌AI基础数据服务商从项目交付向数据资源产品化修复的路径;标贝科技更偏智能语音技术与数据服务结合;核数聚科技和文德数慧则体现了国内数据服务企业从人力交付向平台化、私有化部署和多场景解决方案升级的趋势。
真正值得关注的,不是谁的标注人员最多,而是谁能把标注工作转化为可复用的数据集、可持续的平台工具、可验证的模型效果和可沉淀的行业数据资产。
这才是数据标注公司从“劳务外包”走向“AI基础设施”的分水岭。
下篇预告:从运营模式、财务尽调、财税风险、估值逻辑,拆解数据标注行业上市及挂牌公司的财务质量。 |
注:本文涉及的公司客户、财务数据、估值与交易信息等内容,主要基于公开资料整理,仅用于产业研究与案例分析,不构成任何投资建议或合作承诺。由于部分公司为非上市或非挂牌企业,信息披露口径和透明度存在局限,相关结论仍需结合具体项目、客户访谈及财务资料作进一步尽职调查验证。

海思咨询是一家立足于粤港澳大湾区、面向全国及东南亚市场的专业企业管理咨询机构。
HiSi Consulting is a professional enterprise management consulting firm based in the Guangdong-Hong Kong-Macao Greater Bay Area, serving the national and Southeast Asian markets.
公司核心团队汇聚了来自国内知名投资咨询公司、大型会计师事务所、权威估值机构及国际4A品牌营销公司的资深专家,具备跨领域、复合型的专业背景与丰富的行业实践经验。
The company's core team comprises seasoned experts from leading domestic investment advisory firms, major accounting firms, authoritative valuation institutions, and international 4A branding and marketing agencies, bringing together cross-disciplinary expertise and extensive industry experience.
海思咨询始终以“专业、严谨、责任、共赢”为服务理念,致力于为企业与投资机构提供高附加值、定制化的战略支持。
HiSi Consulting consistently adheres to a service philosophy of "Professionalism, Rigor, Responsibility, and Win-Win Collaboration," committed to providing high-value-added, customized strategic support for enterprises and investment institutions.
在投资前端,我们帮助企业厘清战略方向,开展深度的行业研究与市场分析;
At the pre-investment stage, we assist clients in clarifying strategic direction and conducting in-depth industry research and market analysis.
在投中与投后阶段,提供专业的投融资顾问、财务尽调、估值分析及投后管理体系搭建服务,助力企业实现价值提升与风险管控。
During the investment and post-investment phases, we offer professional services such as investment and financing advisory, financial due diligence, valuation analysis, and post-investment management system development, supporting enterprises in value enhancement and risk control.
同时,公司亦专注于并购重组咨询、项目投资价值与可行性研究,以及覆盖中国与东南亚区域的财税合规与优化解决方案,为企业拓展海内外市场提供扎实的决策依据。
Furthermore, the company specializes in M&A and restructuring advisory, investment value and feasibility studies for projects, as well as tax and financial compliance and optimization solutions covering China and Southeast Asia, providing solid decision-making foundations for businesses expanding domestically and internationally.
依托全周期业务经验,海思咨询的服务已广泛覆盖智能制造、交通运输、工业互联网、机器人、生物医药、互联网平台、新零售、新能源等多个前沿行业领域,同时对国内市场兴起的S基金拥有丰富的咨询经验,能够为各类投资者提供精准、务实的决策支持。
Leveraging its full-cycle business experience, HiSi Consulting's services span a wide range of cutting-edge industries, including intelligent manufacturing, transportation, industrial internet, robotics, biopharmaceuticals, internet platforms, new retail, and new energy. Additionally, the firm has extensive advisory experience in the emerging domestic secondary fund (S fund) market, offering precise and practical decision-making support to various investors.
免责声明
本微信公众号为海思(广州)企业管理咨询有限公司(以下简称“海思咨询”)官方公众号,旨在提供公司新闻与有关行业研究的相关信息,对转载、分享、陈述、观点保持中立,目的仅在于传递更多信息,版权归原作者所有。如涉及作品版权问题,请与本公众号联系(邮箱:16645443@qq.com),我们将尽快删除。
1、本公众号保留对宣传资料修改的权利,敬请留意最新资料。
2、本公司保留在法律范围内对本资料进行解释的权力。
3、任何个人/单位转载、摘录、刊用海思咨询任意官方平台的文章、图片、视频等原创内容,均需注明来源;若未经本公司许可/未注明来源随意转载者,将追究相应法律责任。

夜雨聆风