乐于分享
好东西不私藏

数据清洗软件 v2.0,重大更新,功能再次丰富!

数据清洗软件 v2.0,重大更新,功能再次丰富!

前言

之前发过两篇文章:

我用MATLAB写了一个数据清洗APP

数据清洗APP重大更新!我用MATLAB写了一个数据清洗APP

本期再次对这个APP进行一次重大更新!

数据清洗软件 v2.0 是一款基于 MATLAB App Designer 开发的桌面端数据预处理工具,提供可视化图形界面。数据清洗软件 v2.0 集成了 10 大功能模块,覆盖数据预处理全流程:

  • 空缺值清洗:支持删除行、固定值/统计量填充、多种插值,可自定义列范围。

  • 异常值清洗:提供 Z-Score、IQR、MAD、Grubbs、百分位法检测,可删除、替换或插值,结果高亮并导出报告。

  • 重复值清洗:支持全列或指定列检测,可选择保留首次/末次或全部删除,高亮显示并统计。

  • 数据滤波:内置移动平均、巴特沃斯、FIR、中值、Savitzky-Golay、小波去噪、高斯滤波共 7 种滤波器,含波形对比、频谱分析和质量指标。

  • 标准化/归一化:提供 Z-Score、Min-Max、稳健标准化、L2 范数、对数变换等 8 种方法,支持单列或全表处理及前后对比。

  • 列管理工具:可删除、移动、复制、排序列,并支持按条件筛选行(>, <, == 等 6 种)。

  • 数据质量仪表盘:一键生成数据完整率、重复/异常比例、缺失值分布、直方图、箱线图、相关性热力图及逐列统计报告。

  • 数据合并:支持纵向(追加行)与横向(追加列)拼接,行/列数不齐时自动补 NaN,可预览与多格式导出。

  • 数据采样:提供随机采样、分层采样、系统采样,支持数量/百分比设置与随机种子,实时统计采样率。

  • 批量文件处理:可对多文件统一执行缺失值、异常值、滤波、标准化、去重操作,自定义输出目录并汇总成功/失败数。


软件总览

软件主界面划分为三大功能区,共 10 个独立功能模块

功能区
包含模块
数据清洗
空缺值清洗、异常值清洗、重复值清洗、数据滤波
数据变换与管理
数据标准化/归一化、列管理工具
数据工具
数据质量仪表盘、数据合并、数据采样、批量文件处理

支持 Excel(.xlsx/.xls/.csv) 和 MAT 文件 两种数据格式的导入导出。


功能模块详解

一、数据空缺值清洗

处理数据中的缺失值(NaN),提供多种填充与删除策略:

  • 删除策略:删除包含缺失值的整行数据
  • 固定值填充:用指定数值替换所有缺失值
  • 统计量填充:均值、中位数、众数填充
  • 插值填充:线性插值、样条插值、最近邻插值、Pchip 插值、修正 Akima 三次插值等
  • 自定义范围:可指定处理的起止列,灵活控制处理范围
  • 处理前后数据对比表格,直观查看清洗效果

二、数据异常值清洗

检测并处理数据中的离群点,支持多种统计检测方法:

检测方法:

  • Z-Score 法(基于标准差)
  • IQR 四分位距法
  • MAD 中位数绝对偏差法
  • Grubbs 检验法
  • 百分位法

处理方式:

  • 删除异常值所在行
  • 替换为均值 / 中位数 / 指定值 / NaN / 上下界
  • 线性插值替换

检测结果以高亮标黄的方式在表格中展示,并提供异常值统计面板(总数据量、异常值个数、异常占比、异常行号),支持导出检测报告。

三、数据重复值清洗

识别并处理数据集中的重复记录:

  • 检测范围:按全部列检测,或按指定列检测
  • 保留策略:保留首次出现 / 保留最后出现 / 全部删除
  • 重复行高亮显示,统计面板展示总行数、重复数量、重复占比、去重后行数
  • 支持导出清洗报告

四、数据滤波处理

面向信号数据的专业滤波模块,适用于传感器数据、时序数据等场景:

滤波方法:

  • 移动平均滤波
  • Butterworth 滤波器(低通/高通/带通/带阻)
  • FIR 滤波器
  • 中值滤波
  • Savitzky-Golay 滤波
  • 小波去噪(支持多种小波基)
  • 高斯滤波

辅助功能:

  • 可视化波形对比(原始信号 vs 滤波后信号 vs 差异信号)
  • 频谱分析图表
  • 统计信息面板(均值、标准差、信噪比改善、平滑度变化)
  • 支持逐列滤波或批量全列滤波
  • 导出滤波报告

五、数据标准化 / 归一化

将数据缩放到统一尺度,消除量纲差异,适用于机器学习前的数据预处理:

8 种标准化方法:

  • Z-Score 标准化(零均值单位方差)
  • Min-Max 归一化(自定义目标范围)
  • 小数定标标准化
  • 均值归一化
  • 最大绝对值标准化
  • 稳健标准化(基于中位数,抗离群值干扰)
  • L2 范数归一化
  • 对数变换

支持选择处理单列或全部列,提供变换前后统计对比(均值、标准差、最值)和可视化对比图表。

六、列管理工具

对数据列进行灵活的结构性操作:

  • 删除列:移除不需要的数据列
  • 移动列:将指定列移动到目标位置
  • 复制列:复制一列追加到末尾
  • 排序:按指定列升序或降序排列全表
  • 条件筛选:支持 >、>=、<、<=、==、~= 六种条件,按列值筛选行

七、数据质量仪表盘

一键生成数据质量全景报告,快速掌握数据整体状况:

概览指标:

  • 总行数、总列数、总单元格数
  • 数据完整率
  • 重复行比例
  • 异常值比例(基于 IQR 方法)

可视化图表:

  • 各列缺失值分布柱状图
  • 数据分布直方图
  • 箱线图(展示离群点分布)
  • 列间相关性热力图

逐列统计表:

  • 每列的均值、中位数、标准差、最小值、最大值、缺失数、异常数

支持导出完整的数据质量分析报告(TXT 格式)。

八、数据合并工具

将两份数据文件合并为一份:

  • 纵向合并(追加行):将两份数据上下拼接,列数不同时自动用 NaN 补齐
  • 横向合并(追加列):将两份数据左右拼接,行数不同时自动用 NaN 补齐
  • 分别预览两个输入文件和合并结果
  • 支持 Excel/CSV/MAT 多格式导出

九、数据采样工具

从大规模数据集中抽取子样本,适用于建模抽样、数据探索等场景:

采样方法:

  • 随机采样:从数据中随机抽取指定数量的样本
  • 分层采样:按指定列的中位数分组,按比例抽取,保证各层代表性
  • 系统采样(等距):按固定间隔抽取样本

参数设置:

  • 支持绝对数量或百分比两种采样模式
  • 可设置随机种子,保证结果可复现
  • 实时显示采样统计(原始行数、采样行数、采样率)

十、批量文件处理

对多个数据文件执行相同的预处理操作,提升批量任务效率:

支持的批量任务:

  • 缺失值处理(均值/中位数/删除行)
  • 异常值处理(Z-Score/IQR/MAD 检测 + 删除/均值替换)
  • 数据滤波(移动平均/中值滤波/高斯滤波)
  • 数据标准化(Z-Score/Min-Max/MaxAbs)
  • 数据去重(保留首次/保留末次/全部删除)

功能特点:

  • 支持多文件选择,文件列表可增减管理
  • 自定义输出目录和文件名后缀
  • 实时日志输出,处理进度可视化
  • 处理完成后汇总成功/失败文件数

总结

数据清洗软件 v2.0 将常用的数据预处理操作整合在一个统一的图形界面中,覆盖了从数据质量评估、清洗处理、变换标准化到合并采样的完整流程。所有操作均通过可视化界面完成,处理结果实时预览,并支持多种格式的导入导出,适用于科研数据处理、工程数据分析、机器学习数据准备等多种场景。

数据清洗软件获取链接

https://mbd.pub/o/bread/mbd-aJWWm5tq

点击下方阅读原文,跳转链接。

请注意,本软件是以MATLAB生成得到exe方式发布,双击安装包即可一键式安装,非常方便!

即便你的电脑没有MATLAB这个软件也是可以使用的!

唯一美中不足的就是可能会占用你电脑一部分空间(大约3g左右),介意的小伙伴勿拍!