AI训练的下半场,数据成为关键词。
6月8日下午,青岛市委书记曾赞荣,市长任刚调研创新型产业发展工作,其中一站是AI数据标注企业,标贝(青岛)科技有限公司(简称“标贝科技”)。
这家深耕AI数据标注服务领域多年的企业,是青岛布局数据标注产业的关键落子。
调研中,青岛党政一把手听取企业研发创新、场景应用等情况介绍,希望企业持续巩固AI算法、垂域大模型等核心优势,拓展数据服务领域,提升数据采集和数据标注的平台化能力,走好创新发展之路。
作为智能语音交互领域头部企业,标贝科技成立于2016年,2023年从北京中关村迁至青岛。
依托自主研发的智能化AI数据平台,标贝科技搭建起了“标注-训练-预标注-修正-迭代”智能辅助闭环体系,全面支持图像、文本、语音、3D/4D点云及多模态联合标注能力。2025年,标贝科技入选国家级专精特新“小巨人”。

标贝科技做的,是人工智能产业链最底层、最基础的工作——数据标注。
低成本的员工门槛和海量的人工参与,让数据标注一直被视为AI产业链里“劳动密集型产业”的代名词。
但随着大模型越发深入产业,数据标注的角色正在发生变化。
国家发改委表示,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。
特别是在自动驾驶、智能医疗、智能金融等新兴领域,对于高质量数据标注的需求,更是迎来爆发式增长。
6月8日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》,这是国家层面首次对数据赋能人工智能发展作出的系统性部署。
《实施方案》明确,将“持续推动数据标注先行先试”“培育一批数据标注龙头企业、独角兽企业、瞪羚企业,壮大数据标注产业”。
某种程度上,在AI大模型对数据依赖日益加深的当下,数据标注作为模型训练的第一道防线,即将迎来更广阔的想象空间。
从行业演进来看,随着垂类大模型竞争成为主战场,对高知识密度、高应用价值的行业数据需求井喷,传统依赖批量人工的模式根本无法满足,而通过线上平台,打造“垂直领域专家知识协同” 的高价值形态,将成为未来AI数据标注产业发展的重要方向。
对于青岛来说,需要格外注重本土企业的培育,围绕自身开放优势和产业特色,打造一两家细分领域领先的数据标注龙头企业。
这无论是对青岛吸引年轻人,还是本土企业转型,都意义重大。
1
标贝科技与青岛的结缘,始于2022年。
2022年10月,标贝科技完成数千万元B轮融资,参投方是基石创投和青岛联储创新投资有限公司,这是青岛第一次出手。
时隔半年,2023年4月,标贝科技完成超亿元B+轮融资,由巨峰科创、青岛财富联合投资,股权穿透显示,两家投资机构的实控人均为崂山区财政局。
3个月后,2023年7月,标贝科技正式将企业地址由北京市海淀区变更为青岛市崂山区,落户青岛市人工智能产业园。
业务方面,标贝科技经历了“数据筑基-算法深耕-平台开放”三个阶段。
2017年,标贝科技以语音标注工具切入,首次实现了语音数据标注标准化。
2019年,标贝科技将业务布局拓展至图像领域,迈出多模态布局第一步。
2022年,集成3D点云、视频等全类型标注,标贝科技推出AI数据平台1.0,打通多模态数据处理链路;
2024年发布的4.0版,集成了先进的智能预标注模型与算法,升级为“智能数据生产流水线”,通过预标注模型与项目管理功能融合,解决“效率与质量不可兼得”的行业痛点。
至此,标贝科技形成“智能语音+AI数据服务”双轮驱动格局,落地智能语音、AI数据服务、行业大模型解决方案等产品矩阵。

这其中,智能语音交互赛道是标贝科技的传统优势领域。
2025年8月,标贝科技推出“十万音色·自然语音数据集”,凭一己之力填补了国内高质量语音数据集的空白。
同年10月,标贝科技的“端到端语音大模型数据集”入选国家数据局首批高质量数据集典型案例。该方案覆盖30余种语种及方言,广泛适配多领域跨场景语音任务,已助力数十家大模型客户完成场景化部署落地。
在视觉领域,标贝科技也实现了高质量数据标注的突破。
2025年4月,在国家数据局发布的首批数据标注优秀案例中,标贝科技自研的“4D-BEV上亿点云标注系统”入选,成为青岛市唯一入围的企业。
该系统集成了自动化标注技术,能从空间、时序两个维度对车辆、行人、路标等目标进行多视角标注,处理上亿量级点云数据,相比传统标注方式效率提升约30%、准确性提高约20%,已赋能10余家自动驾驶客户。
如今,标贝科技已经形成以青岛为总部,北京、天津、杭州、深圳、长春、新加坡、香港设立研发中心、数据基地或分支办事处,辐射全国乃至东南亚市场的战略布局。
目前已积累上百万小时语音数据、100T图像视频点云数据,服务百度、阿里、腾讯、华为、小米、京东、字节跳动等百余家企业,服务项目累计超1000项。
2
目前来看,标贝科技的主力业务仍集中在语言大模型的语音数据标注。
该赛道需求庞大但技术门槛有限,而且同质化竞争日益激烈。
标贝科技的客户名单虽长,但底层能提供类似服务的玩家并不在少数,比如科大讯飞、思必驰等等老牌玩家早已布局,标贝科技的护城河,远没有想象中深。
更重要的是,随着具身智能与物理AI的爆发,数据标注已经进入产业换挡期。
一个是数据标注类型的升级。
与语言大模型主要处理“文本+语音”二维数据不同,在物理AI时代,具身智能要求人形机器人可以实现“看懂、摸准、拿稳”的交互。
这意味着数据标注对象从单一的语音波形,扩展到视觉图像、3D点云、触觉反馈、力矩传感、运动轨迹等多模态数据。
在标注技术上,数据标注也正加速撕掉“人工苦力”的标签。
一方面,面对“需求指数级增长、供给线性受限”的困境,行业正在形成“真机数据为黄金标准,仿真数据为规模杠杆”的双轨制。
比如,英伟达Cosmos、特斯拉“世界模拟器”可在1天内让智能体吸收相当于人类500年的驾驶经验;中国信通院也将合成数据列为产业三大技术趋势之一。

另一方面,国家顶层政策的落地,也驱动了数据标注产业从人力代工走向智能智造。
《关于推进行业高质量数据集建设行动的实施方案》明确,要引导数据标注从“以人为主”向“人机协同”转型升级。
此外,数据标注产业正从“幕后画框人”走向“台前标准制定者”。
这个标准包含三层:
一是数据格式标准:多模态时空对齐协议、传感器接口,决定工具平台的兼容性;
二是质量评价标准:从“准确率”转向“物理因果一致性、动作成功率、鲁棒性测试”;
三是安全合规标准:工业、医疗、交通数据的采集规范,合规成本上升,壁垒同步提高。
资本动向也在印证这一变化。
资本开始更青睐具备大规模高质量数据生产能力和核心硬件量产潜力的企业。2026年4-5月,纯具身智能领域融资超240亿元。
更深层的变化,来自大模型训练本身。
随着大模型逐渐强调垂直化场景,训练重心也从预训练转向了强化学习。

不同于预训练对数据质量要求相对宽松,强化学习更依赖高精细度和专业化数据,常常涉及医疗影像、法律文本、情感语言等高门槛领域。
同时,这种变化也使得标注员的角色愈发复杂。
据《数据标注产业人才报告》显示,2025年中国数据标注产业从业人员规模预计在85-120万人之间,且专业人才缺口达50万人。
更值得关注的是,从业人员结构正在发生深刻变化。传统劳动密集型标注人员比例从2020年的85%下降至2025年的45%,而具备AI算法理解能力和行业知识的复合型人才比例则从15%上升至55%。
数据标注产业,已不再是一个独立的环节,而是深度融入人工智能产业链。从上游的数据采集,到中游的标注加工,再到下游的模型训练,形成了紧密的协同关系。
随着具身智能与物理AI的爆发,数据标注正在从互联网数据的“附属加工”演变成物理世界数据的“基建生产”。
这种变化,对标贝科技这样的玩家意味着什么?
语言大模型的通用语音标注虽然门槛不高,但垂直场景的定制化语音数据却是一门不错的生意。
而这正是青岛的独特底牌。
海尔、海信等青岛龙头家电企业,背后是千万级家庭场景的智能语音交互需求。从智能家电到家庭服务机器人,每一个细分场景都需要“懂行的数据”来支撑。
这恰好与标贝科技推出的打造垂直场景深度适配体系的“端到端语音大模型高质量数据集”高度契合。

夜雨聆风