数据清洗五步法:AI审计的地基工程

为什么数据清洗是AI审计的第一课?

我见过太多团队兴冲冲地上了AI工具,把一堆数据丢进去,满怀期待地等结果。AI跑完了,吐出一份异常清单,大家一看——全是”假警报”。

为什么?因为数据本身就是脏的,AI被骗了。

模型是厨师,数据是食材。食材烂了,厨师手艺再好也炒不出好菜。


五步清洗法

Step A:数据体检(Profiling)

先不要急着分析,先给数据做个”体检”:

  • 总共多少行?空值率多少?重复率多少?
  • 哪些字段是文字、哪些是数字、哪些是日期?
  • 有没有主键候选?
  • 分类字段有多少个不同的值?(如果”部门”字段有300个不同值,大概率有问题)

Step B:定义数据契约(Data Contract)

明确告诉自己(和AI):“我需要的数据长什么样”:

  • 必填字段清单
  • 类型约束:金额必须是数字,日期必须是日期
  • 范围规则:金额≥0,日期在合理区间内
  • 唯一性要求

Step C:标准化(Standardization)

把”各说各话”的数据统一成一种格式:

  • 金额:统一为浮点数+币种(1,200.00 / ¥1200 / 1200元 → 1200.00 CNY)
  • 日期:统一为 datetime + 时区
  • 地名/机构名:统一映射表
  • 文本:去空格、去不可见字符、统一大小写

Step D:去重与对齐(Dedup & Alignment)

  • 完全重复行 vs 业务重复(同一笔单导入了两次)
  • 合并前后的行数验证——合完行数变了,一定要查清楚为什么
  • 关键字段覆盖率检查

Step E:可追溯性(Traceability)

这一步大多数人跳过了,但在审计场景里至关重要:

  • 保留原始数据(raw)
  • 输出清洗后数据(clean)
  • 输出问题行清单(bad_rows)+ 每行的问题原因
  • 输出清洗日志(每一步做了什么变更)

不可追溯 = 不可用于审计报告。


完整版包含每一步的代码示例和实操检查清单。持续更新中。