数据预处理

Posted on 2025-05-01

现实世界的数据是“肮脏的”
- 不完整的：有些感兴趣的属性缺少属性值，或仅包含聚集数据
- 含噪声的：包含错误或者“孤立点”
- 不一致的：在编码或者命名上存在差异
没有高质量的数据，就没有高质量的挖掘结果
- 准确性
- 完整性
- 一致性
- 时效性：及时更新
- 可信性：数据是否被用户信赖
- 可解释性：数据是否容易理解

空缺值
- 忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。
- 人工填写空缺值
  - 工作量大，可行性低
  - 使用一个全局变量填充空缺值：比如使用$unknown$或$-∞$替换
    - 尽管简单，但程序可能会认为这些空缺形成了一个有趣的概念：unknown，也可能会使数据有偏
- 使用属性的平均值填充空缺值：可能有偏
- 使用与给定元组属同一类的所有样本的平均值：可能有偏
  - 使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样预测的方法，可能有偏
- 相当场合下，数据有空缺不意味着错误
噪声：一个测量变量中的随机错误或偏差
- 处理噪声数据
  - 分箱binning：首先排序数据，并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等
  - 回归regression：用回归函数预测
  - 离群点分析outlierAnalysis：利用聚类检测离群点

困难：数据语义的多样性和结构带来的实体识别问题

标称数据的$\chi^2$相关检验
- 相依表：![alt text](D:/Desktop/myfile/UESTC undergraduate course/Grade Ⅳ/数据挖掘和大数据分析/notes/认识数据和数据预处理/image-5.png)
- 期望频度：$e_{ij}=\frac{N(A=a_i)N(B=b_j)}{n}$
- 观测频度：相依表中的实际计数$\sigma_{ij}$
- $Pearson \chi^2$统计量：$\chi^2 = \sum_{i}\sum_{j}\frac{(\sigma_{ij}-e_{ij})^2}{e_{ij}}$
数值数据的相关系数
- $Pearson$相关系数：$r_{A,B}=\frac{\sum_{i}(a_i-\bar{A})(b_i-\bar{B})}{(n-1)\sigma_A\sigma_B}$
- $R_{A,B}=0$意味着两类属性独立，$R_{A,B}$越接近1，意味着某一个越可能是冗余项,越接近-1，意味着存在相互阻碍的效应，但是相关性不蕴含因果关系
数据数值的协方差
- 协方差：$Cov(A,B)=\frac{\sum_{i}(a_i-\bar{A})(b_i-\bar{B})}{n}$
- $r_{A,B}=\frac{Cov(A,B)}{\sigma_A\sigma_B}$
- $Cov(A,B)=E(AB)-E(A)E(B)$
- 描述两个属性如何一起变化
- 协方差0不蕴含独立性

用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果

目的：通过删除不相干的属性或维减少数据量

挑战：d个属性有$2^d$个可能的子集 ,枚举所有几乎不可行

策略：启发式的方法:逐步向前选择,逐步向后删除,向前选择和向后删除相结合

算法：信息增益, 互信息, Relief,卡方分析

将数据划分成不相交的桶

规则：等宽，等深，V-最优，MaxDiff

回归：将数据拟合成直线

对数线性模型：近似离散的多维概率分布

将数据元组看成对象，将他们划分成簇，每一簇的对象互相相似，簇的直径越大，质量越好

将数据集X映射到区间A

$Normal(v)=min(A)+\frac{x-min(X)}{max(X)-min(X)}(max(A)-min(A))$

实际最大值最小值未知，或者离群点影响对最大最小规范化影响太大时，该方效果较好

$Normal(v)=\frac{x-\bar X}{\sigma_X}$