源码交付!基于Kettle的企业级ETL数据中台系统,Doris 数据仓库,实时采集、元数据、数据标准、数据质量、数据质量,数据资产
点击关注,获取项目源码
01 项目简介
基于 Kettle 的数据中台是面向企业数字化转型、覆盖数据全生命周期的一站式数据能力平台,以Web 可视化 ETL为核心引擎,实现多源数据接入、标准统一、质量管控、资产化运营与服务化输出。平台采用轻量化 Doris 数据仓库,无需复杂 Hadoop 架构,集成离线开发、实时采集、元数据、数据标准、数据质量、指标、标签、主数据、安全、可视化、资产门户等全套能力,具备易部署、易使用、可插拔、全面国产化等特点,可广泛服务于制造、政府、金融、能源、零售等行业,帮助企业打破数据孤岛、构建可信数据资产,最终支撑 “用数据决策、用数据管理、用数据创新” 的数字化转型目标。

02 核心优势
-
功能完备:平台具备企业级数据中台全套能力,除元数据、数据标准、数据采集、数据质量、数据服务、数据资产等基础治理能力外,还内置数据指标、数据标签、主数据、BI 可视化、知识图谱等高级应用功能,一套平台即可满足全域数据治理与业务数据化需求。
-
使用简单:底层采用轻量化 Doris 数仓,部署与使用成本远低于传统 Hive+Hadoop 架构,熟悉 MySQL 报表开发即可快速上手;同时提供Web-Kettle 可视化 ETL,支持拖拽式任务开发,大幅降低数据开发门槛,缩短实施周期、降低运维难度。
-
可插拔设计:平台采用模块化可插拔架构,系统日志、服务器监控、大数据引擎、数据可视化、知识图谱等核心模块均可按需部署、按需采购,支持从小规模试点到大规模集群的平滑扩展,灵活适配企业不同阶段数字化建设需求。
-
国产化支持:平台全面兼容国产化生态,支持 X86、ARM、兆芯、飞腾、海思等国产芯片,支持 UOS、银河麒麟等国产操作系统,适配人大金仓、达梦、OceanBase、TiDB 等国产数据库,并可自由替换国产中间件,全面满足信创与自主可控要求。
03 核心功能
-
元数据管理实现对企业数据结构的统一登记、采集、维护与版本管控,支持多类型数据源自动采集元数据,提供最新元数据维护、数据血缘分析、影响分析、版本定版与对比能力,让企业清晰掌握数据从哪里来、流向哪里、被谁使用,为数据治理提供基础目录与依据。
-
数据标准致力于构建企业统一的数据语言,通过标准词根统一命名规范、标准字典统一枚举含义、数据元规范字段属性、标准模型提供统一结构,实现跨系统、跨部门数据口径一致、语义统一,从源头解决数据混乱、歧义、无法互通的问题。
-
数仓设计按照业务域对数据进行规范化组织与分层,支持主题域、业务主题划分,采用 ODS、DWD、DWS、ADS 标准分层架构,并提供主键模型、明细模型、聚合模型等多种建模方式,兼容星型模型与雪花模型,让数据仓库结构清晰、易于维护、便于分析。
-
数据采集 / 开发以 Web-Kettle 为离线开发核心、Flink 为实时开发核心,支持数据库、文件、接口、消息队列等百种异构数据源接入;提供可视化拖拽 ETL 设计器、多源数据目录、跨库直连采集能力,支持定时调度、异常重试、脚本扩展,实现离线批量与实时秒级双引擎数据接入与加工。
-
数据质量围绕准确性、完整性、一致性、时效性、唯一性等维度建立全链路监控体系,提供丰富规则模板与自定义 SQL / 正则能力,支持质量任务定时调度、自动评分、异常告警、问题数据定位与导出,形成 “规则配置 — 任务检测 — 报告分析 — 问题整改” 的质量闭环。
-
数据指标以统一口径构建企业级指标体系,支持原子指标、派生指标、复合指标的定义、计算、血缘追踪与可视化展示,解决跨部门指标口径不一致问题,为经营分析、管理驾驶舱、决策预警提供可信、可解释、可复用的核心指标能力。
-
数据标签面向用户、产品、设备等实体构建标签体系,支持事实标签与计算标签开发、标签画像分析与标签圈群,通过低代码方式快速生成用户分层、精准营销、风险识别、精细化运营所需的特征标签,让数据从统计记录转变为可直接驱动业务的洞察能力。
-
数据生命周期聚焦数据从使用到归档、恢复、销毁的全流程管理,按照数据价值与使用频率实现冷热数据分层,将 Doris 热数据自动归档至低成本对象存储,支持归档数据一键恢复与彻底删除,在满足合规要求的同时大幅降低企业存储成本。
-
数据安全构建覆盖分级分类、数据脱敏、加密存储、传输加密、应用授权的全链路安全体系,支持数据敏感级别定义、字段脱敏展示、国密算法加密,通过 appId+appKey 完成第三方系统鉴权与细粒度权限控制,确保数据在采集、加工、共享、使用全过程安全合规。
-
数据服务以 API 形式实现数据资产的敏捷交付,支持低代码在线开发接口、第三方接口注册纳管、在线测试、文档生成、流量控制与权限审批,通过 API 集市实现数据服务的申请、发布、调用、监控全生命周期管理,让数据可共享、可复用、可运营。
-
主数据对客户、产品、员工、供应商等企业核心实体进行统一管理,支持编码规则自动生成、字段加密、版本管控、生命周期追踪与跨系统订阅推送,确保全公司唯一数据源,解决多系统主数据不一致、重复、错乱等顽疾,提升基础数据准确性。
-
数据可视化 BI提供零代码拖拽式报表与大屏设计能力,通过数据集管理、图表绑定、多维分析快速构建驾驶舱、业务报表、监控大屏,支持联动、下钻、导出与分享,让业务人员无需技术开发即可直观查看数据、快速获取业务洞察。
-
数据资产将指标、报表、标签、API、文件等统一纳管为数据资产,通过资产目录完成分类、授权与编目,通过资产门户为业务人员提供一站式查询、订阅、申请、使用入口,实现数据可见、可管、可用、可运营,真正释放数据资产价值。






04 技术架构


05 联系方式
欢迎点赞关注,如需系统源码、系统演示、项目交付,二次开发,请扫描二维码或添加微信:gzzw1131


夜雨聆风
