

5月18日,在钱江世纪城投资促进大会上,数搭国际数据开源社区(ZODA Lab)正式发布。该社区将构建高质量开源数据集、打造覆盖全部主流模型的核心评测基准、连接全球专家网络,通过两年时间的努力,在钱江世纪城形成全球顶尖的开源数据社区生态。
ZODA:从浙江到中国


数搭社区由整数智能信息技术(杭州)有限责任公司牵头建设,致力于解决当前人工智能发展中最关键也最棘手的难题:高质量数据从哪来、怎么评,将打造成为在“数据+评测+专家生态”关键环节填补全球开源生态空白的基础设施。

数搭,既有“数据搭建”之意,也暗含“为AI发展搭建数据基础设施”的使命。“以数据筑基,搭建AI未来”,是数搭社区的核心主张。它是钱江世纪城、萧山区乃至浙江省共同打造的人工智能“数据底座”。
数搭社区的英文名ZODA Lab
藏着宏大的愿景
Z——代表浙江,也代表中国,寄望这一社区能够在全球AI数据标准领域发出中国声音。同时,Z也指Z世代,象征创新活力。
O——Open Source(开源)。开源是人工智能发展的重要驱动力。从Linux、PyTorch到DeepSeek,开源正在重塑全球AI竞争格局。
DA——Data(数据)。数据是人工智能的燃料。谁掌握了高质量数据,谁就掌握了AI竞争的主动权。
为什么数据如此重要?整数智能副总裁、数搭社区负责人孟卓飞介绍,在AI模型的生产周期中,超80%的时间花在数据准备和处理上,真正决定模型能力上限和不同厂家核心差异化的点,是数据的质量和品位。他说:“训练一个聪明的大模型,大部分功夫不在写代码,而在‘备课’——收集、清洗、标注、评测数据。如果数据质量差,再强的算力也只能训练出‘糊涂’的模型。”
围绕这一行业需求,数搭社区明确了三大核心使命:构建高质量开源数据集、打造覆盖全部主流模型的核心评测基准、连接全球专家网络。

运营模式上,数搭社区将打造“线上+线下+国际”三位一体的创新模式。线上设立数据集平台、模型排行榜、高额悬赏挑战赛等板块;线下则在钱江世纪城江边设立一座“ZODA House”,仿照硅谷顶尖技术社区的“House”模式,让顶级研究员、活跃创业者和资深投资人面对面交流,常态化举办技术沙龙等活动;国际层面,社区将连接Linux基金会、PyTorch基金会等全球顶级开源生态,形成国际交流机制。“在硅谷,很多早期创意和商业订单就是在这样的非正式场合碰撞出来的。”孟卓飞说,“这件事也完全可以在世纪城实现。”
为什么是钱江世纪城?


数搭社区落户钱江世纪城,并非偶然。整数智能孵化于钱江世纪城的浙大计算机创新技术研究院,2021年起步以来,始终聚焦高质量数据集构建与模型训练全生命周期服务。五年间,企业发展成效显著,今年3月,入选浙江省第一批高端数据标注基地试点名单;其技术被Qwen、DeepSeek等顶尖模型作为基准引用,全球合作的顶级机构超3000家。
在开源领域,整数智能的积累为数搭社区提供了坚实的运营基础。团队低调运营开源生态两年,累计发布50余个高质量评测基准,数据集下载量突破1亿次,多家头部模型厂商在重大版本发布时,引用的评测榜单中超过20%来自其开源项目。


整数智能的快速崛起,离不开世纪城优质的产业生态。作为杭州人工智能产业的重要集聚区,这里集聚了北大信息技术高等研究院、浙大计算机创新技术研究院等国家级科研平台,汇聚近200家国家高新技术企业。同时,杭州拥有深厚的开源基础,既有DeepSeek等知名开源模型,也有魔搭社区等工具链平台,在全球开发者中拥有极高认可度。数搭社区诞生于此,天然具备“邻里协作”的生态优势。

人才是AI产业的核心竞争力,而钱江世纪城正是人才集聚的“高地”。作为全国最年轻、学历最高的CBD之一,这里35岁以下青年人才占比达70%,近三年年均净流入青年人口超1.9万人。“人才和企业的选择,最能说明区域的吸引力。”钱江世纪城相关负责人表示。
优质的营商环境,更是为企业发展保驾护航。对此,整数智能相关负责人深有体会:“从场地支持到产业链对接,从算力补贴到惠企政策,这种全方位的支持,对于需要长期投入、跨领域协作的开源社区而言,尤为珍贵。”
此外,萧山作为传统工业强区,沉淀了海量真实的生产数据。这些数据,正是训练工业AI模型最宝贵的“养料”,成为数搭社区独有的“数据富矿”。
正是这些因素的叠加,让钱江世纪城成为数搭社区诞生的理想之地。
模数共振,协同闭环


数搭社区的诞生,并非孤立的产业布局。在钱江世纪城,它与芯模社区形成了天然的互补关系。
芯模社区是钱江世纪城2025年正式启动的战略平台,聚焦国产AI芯片与算法模型的适配,致力于打造全国芯模联动发展示范区。依托芯模社区,2300P的智算算力已建成上线,80余种主流模型为企业提供低成本、高效率的研发环境。

芯模社区解决的是“算力+模型”的问题——让国产芯片跑得稳、让模型适配快。而数搭社区则专注于“数据+评测+专家生态”,为生态补上关键短板。高质量数据是训练优质模型的前提,权威评测是衡量模型能力的标尺。数搭社区提供数据和评测,芯模社区提供算力和适配,两者合在一起,就形成了一个完整的闭环:高质量数据训练出更聪明的模型,模型在芯模社区验证芯片性能,芯片的优化反过来支撑更大规模的数据处理。
这种协同,被形象地称为“模数共振”。就在4月底,工业和信息化部与国家数据局联合发布2026年“模数共振”行动,覆盖石化化工、汽车、医疗装备、航空航天、医药、生物制造、信息通信等20个重点行业,目标到2026年底形成“数据-模型-场景应用”良性循环。钱江世纪城的实践,可以视为这一国家战略在区域层面的先行先试。
预计未来两年内,数搭社区数据集累计下载量超2亿次,专家规模超过100万人,发布200个以上评测榜单,覆盖100个以上国家和地区,入驻200家以上AI企业,带动AI数据产业规模超过100亿元。

面向长远,数搭社区将依托钱江世纪城,打造全球人工智能开源生态的重要节点,实现从“技术跟随”到“生态引领”的跨越,构建自主可控、开放共赢的AI数据基础设施。
来源:综合杭州日报

夜雨聆风