数据清洗软件 v2.0,重大更新,功能再次丰富!
前言
之前发过两篇文章:
本期再次对这个APP进行一次重大更新!
数据清洗软件 v2.0 是一款基于 MATLAB App Designer 开发的桌面端数据预处理工具,提供可视化图形界面。数据清洗软件 v2.0 集成了 10 大功能模块,覆盖数据预处理全流程:
-
空缺值清洗:支持删除行、固定值/统计量填充、多种插值,可自定义列范围。
-
异常值清洗:提供 Z-Score、IQR、MAD、Grubbs、百分位法检测,可删除、替换或插值,结果高亮并导出报告。
-
重复值清洗:支持全列或指定列检测,可选择保留首次/末次或全部删除,高亮显示并统计。
-
数据滤波:内置移动平均、巴特沃斯、FIR、中值、Savitzky-Golay、小波去噪、高斯滤波共 7 种滤波器,含波形对比、频谱分析和质量指标。
-
标准化/归一化:提供 Z-Score、Min-Max、稳健标准化、L2 范数、对数变换等 8 种方法,支持单列或全表处理及前后对比。
-
列管理工具:可删除、移动、复制、排序列,并支持按条件筛选行(>, <, == 等 6 种)。
-
数据质量仪表盘:一键生成数据完整率、重复/异常比例、缺失值分布、直方图、箱线图、相关性热力图及逐列统计报告。
-
数据合并:支持纵向(追加行)与横向(追加列)拼接,行/列数不齐时自动补 NaN,可预览与多格式导出。
-
数据采样:提供随机采样、分层采样、系统采样,支持数量/百分比设置与随机种子,实时统计采样率。
-
批量文件处理:可对多文件统一执行缺失值、异常值、滤波、标准化、去重操作,自定义输出目录并汇总成功/失败数。
软件总览
软件主界面划分为三大功能区,共 10 个独立功能模块:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
支持 Excel(.xlsx/.xls/.csv) 和 MAT 文件 两种数据格式的导入导出。

功能模块详解
一、数据空缺值清洗
处理数据中的缺失值(NaN),提供多种填充与删除策略:
-
删除策略:删除包含缺失值的整行数据 -
固定值填充:用指定数值替换所有缺失值 -
统计量填充:均值、中位数、众数填充 -
插值填充:线性插值、样条插值、最近邻插值、Pchip 插值、修正 Akima 三次插值等 -
自定义范围:可指定处理的起止列,灵活控制处理范围 -
处理前后数据对比表格,直观查看清洗效果

二、数据异常值清洗
检测并处理数据中的离群点,支持多种统计检测方法:
检测方法:
-
Z-Score 法(基于标准差) -
IQR 四分位距法 -
MAD 中位数绝对偏差法 -
Grubbs 检验法 -
百分位法
处理方式:
-
删除异常值所在行 -
替换为均值 / 中位数 / 指定值 / NaN / 上下界 -
线性插值替换
检测结果以高亮标黄的方式在表格中展示,并提供异常值统计面板(总数据量、异常值个数、异常占比、异常行号),支持导出检测报告。

三、数据重复值清洗
识别并处理数据集中的重复记录:
-
检测范围:按全部列检测,或按指定列检测 -
保留策略:保留首次出现 / 保留最后出现 / 全部删除 -
重复行高亮显示,统计面板展示总行数、重复数量、重复占比、去重后行数 -
支持导出清洗报告

四、数据滤波处理
面向信号数据的专业滤波模块,适用于传感器数据、时序数据等场景:
滤波方法:
-
移动平均滤波 -
Butterworth 滤波器(低通/高通/带通/带阻) -
FIR 滤波器 -
中值滤波 -
Savitzky-Golay 滤波 -
小波去噪(支持多种小波基) -
高斯滤波
辅助功能:
-
可视化波形对比(原始信号 vs 滤波后信号 vs 差异信号) -
频谱分析图表 -
统计信息面板(均值、标准差、信噪比改善、平滑度变化) -
支持逐列滤波或批量全列滤波 -
导出滤波报告

五、数据标准化 / 归一化
将数据缩放到统一尺度,消除量纲差异,适用于机器学习前的数据预处理:
8 种标准化方法:
-
Z-Score 标准化(零均值单位方差) -
Min-Max 归一化(自定义目标范围) -
小数定标标准化 -
均值归一化 -
最大绝对值标准化 -
稳健标准化(基于中位数,抗离群值干扰) -
L2 范数归一化 -
对数变换
支持选择处理单列或全部列,提供变换前后统计对比(均值、标准差、最值)和可视化对比图表。

六、列管理工具
对数据列进行灵活的结构性操作:
-
删除列:移除不需要的数据列 -
移动列:将指定列移动到目标位置 -
复制列:复制一列追加到末尾 -
排序:按指定列升序或降序排列全表 -
条件筛选:支持 >、>=、<、<=、==、~= 六种条件,按列值筛选行

七、数据质量仪表盘
一键生成数据质量全景报告,快速掌握数据整体状况:
概览指标:
-
总行数、总列数、总单元格数 -
数据完整率 -
重复行比例 -
异常值比例(基于 IQR 方法)
可视化图表:
-
各列缺失值分布柱状图 -
数据分布直方图 -
箱线图(展示离群点分布) -
列间相关性热力图
逐列统计表:
-
每列的均值、中位数、标准差、最小值、最大值、缺失数、异常数
支持导出完整的数据质量分析报告(TXT 格式)。

八、数据合并工具
将两份数据文件合并为一份:
-
纵向合并(追加行):将两份数据上下拼接,列数不同时自动用 NaN 补齐 -
横向合并(追加列):将两份数据左右拼接,行数不同时自动用 NaN 补齐 -
分别预览两个输入文件和合并结果 -
支持 Excel/CSV/MAT 多格式导出

九、数据采样工具
从大规模数据集中抽取子样本,适用于建模抽样、数据探索等场景:
采样方法:
-
随机采样:从数据中随机抽取指定数量的样本 -
分层采样:按指定列的中位数分组,按比例抽取,保证各层代表性 -
系统采样(等距):按固定间隔抽取样本
参数设置:
-
支持绝对数量或百分比两种采样模式 -
可设置随机种子,保证结果可复现 -
实时显示采样统计(原始行数、采样行数、采样率)

十、批量文件处理
对多个数据文件执行相同的预处理操作,提升批量任务效率:
支持的批量任务:
-
缺失值处理(均值/中位数/删除行) -
异常值处理(Z-Score/IQR/MAD 检测 + 删除/均值替换) -
数据滤波(移动平均/中值滤波/高斯滤波) -
数据标准化(Z-Score/Min-Max/MaxAbs) -
数据去重(保留首次/保留末次/全部删除)
功能特点:
-
支持多文件选择,文件列表可增减管理 -
自定义输出目录和文件名后缀 -
实时日志输出,处理进度可视化 -
处理完成后汇总成功/失败文件数

总结
数据清洗软件 v2.0 将常用的数据预处理操作整合在一个统一的图形界面中,覆盖了从数据质量评估、清洗处理、变换标准化到合并采样的完整流程。所有操作均通过可视化界面完成,处理结果实时预览,并支持多种格式的导入导出,适用于科研数据处理、工程数据分析、机器学习数据准备等多种场景。
数据清洗软件获取链接
https://mbd.pub/o/bread/mbd-aJWWm5tq
点击下方阅读原文,跳转链接。
请注意,本软件是以MATLAB生成得到exe方式发布,双击安装包即可一键式安装,非常方便!
即便你的电脑没有MATLAB这个软件也是可以使用的!
唯一美中不足的就是可能会占用你电脑一部分空间(大约3g左右),介意的小伙伴勿拍!
夜雨聆风