第二章：认识数据

Posted on 2025-05-01

第二章：认识数据

2.1 数据对象与属性类型

数据对象 = 样本/实例/数据点/对象，用属性描述

2.1.1 什么是属性

属性attribute，维dimension，特征feature，变量variable

2.1.2 标称属性NominalAttribute

标称属性的值仅仅只是不同的名字
众数、熵、列联相关、$\chi^2$检验是有意义的

2.1.3 二元属性BinaryAttribute

只有两个状态0，1
- 对称的
- 非对称的：重要的值通常比较少出现，通常用1表示，例如化验结果中的阳性

2.1.4 序数属性OrdinalAttribute

序数属性的值提供足够的信息确定对象的序
中值、百分位、秩相关、游程检验、符号检验是有意义的

2.1.5 数值属性NumericAttribute

区间属性IntervalAttribute
- 存在测量的单位
- 均值、标准差、皮尔逊相关、$T$检验和$F$检验是有意义的
比率RatioAttribute
- 关注差和比率
- 几何平均、调和平均、百分比变差是有意义的

2.1.6 离散属性与连续属性

离散属性DiscreteAttribute
- 有限或无限可数个值
- 常表示为整数变量或字符串变量
  连续属性ContinuousAttribute
- 属性值为实数
- 实践中, 实数只能用有限位数字的数度量和表示.
- 连续属性一般用浮点变量表示.

2.2 数据的基本统计描述

2.2.1 中心度量趋势

均值：$avg(x)=\frac{\sum_{i=1}^{N}x_i}{N}$
加权均值：$avg(x)=\frac{\sum_{i=1}^{N}\omega_ix_i}{\sum_{i=1}^{N}\omega_i}$
截尾均值：减少极端值的影响
中位数：线性插值估计
- 找到中位数区间$S=[L_1,L_1+width]
- S区间频数为$freq_{mid}$,低于S的所有区间频数和为$\Sigma$
- 估计$Median = L_1+ width \cdot \frac{N/2-\Sigma}{freq_{mid}}$
众数：对于非单峰数据，有如下经验：$mean-mode\sim 3*(mean-median)$

2.2.2 度量数据的散布

极差：$max-min$
四位分数：将数据分布划分为4个相等部分，分界点为$Q_1,Q_2(\text{中位数}),Q_3$
四分位数极差：给出数据中间一半的覆盖范围，$IDQ=Q_3-Q_1$
方差： $\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2$
标准差:度量均值的发散，$\sigma= \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2}$
五数概括$summary(x)=[min,Q1,median,Q3,max]$
盒图

2.2.3 数据的基本统计描述的图形显示

分位数图
- 观察单变量数据分布
- 每个观测值和某个百分数配对
分位数-分位数图
- 刻画一个分布到另一个分布是否有漂移
直方图
- 刻画数据的整体分布情况
- numpy.hist()
散点图
- 数据的具体分布（<=3维）

2.3 数据可视化

2.3.1 基于像素的可视化技术

空间填充曲线

2.3.2 几何投影可视化技术

平行坐标技术

2.3.3 基于图符的可视化技术

Chernoff脸
人物线条画

2.3.4 层次可视化技术

“World-within-world”技术
树图

2.3.5 可视化复杂对象和关系

标签云tag-cloud

2.4 度量数据的相似性和相异性

相似性和相异性都被称作邻近性

2.4.1 数据矩阵和相异性矩阵

基于内存的聚类和最邻近算法基于两种数据结构：

数据矩阵dataMatrix
- 对象-属性two_mode
相异性矩阵dissmilaratyMatrix
- 对象-对象single_mode
- 对称的,对角线是0
- $sim(i,j)=1-d(i,j)$

2.4.2 标称属性的邻近性度量

相异性计算标准：

不匹配率计算：$d(i,j)=\frac{p-m}{p}$
将标称属性用非对称的二元属性编码

2.4.3 二元属性的邻近性度量

对称二元属性：
- 每个状态同样重要，$d(i,j)=\frac{r+s}{q+r+s+t}$
非对称二元属性：
- 正匹配比负匹配更重要
  $d(i,j)=\frac{r+s}{q+r+s}$

2.4.4 数值属性相异度：闵可夫斯基距离

对数据对象$i=(x_{i1},x_{i2},…,x_{ip}),j=(x_{j1},x_{j2},…,x_{jp})$,各维权重为$w=(w_1,w_2,…,w_p)$,Minkowski距离：$d(i,j)=\sqrt{q}{\sum_{k=1}^{p}{w_i(x_{ik}-x_{jk})^q}}$
注意，各维等价时，p=1称为Manhattan距离，p=2称为Euclidean距离

2.4.5 序数属性的相异性度量

变量$f$具有$M_f$个状态，变量的值映射为秩，即某个对象变量$f_i$，值为$x_{if}$，秩为$r_i$，相异度计算用区间标度变量处理：$z_i=\frac{r_{if}-1}{M_f-1}$，即用linspace(0,1,Mf)代表每个点

2.4.6 混合属性的相异度

数据集包括p个混合属性，指示符$\delta_{ij}^{f}=0$当且仅当$x_i,x_j$缺失或者在非对称二元属性中形成负匹配
根据属性的贡献计算

$d(i,j)=\frac{\sum_{i=1}^{p}\delta_{ij}^{p}d_{ij}}{\sum_{i=1}^{p}\delta_{ij}^{p}}$
f是数值的：$d_{ij}^{f}=\frac{|x_{if}-x_{jf}|}{max_hx_{hf}-min_hx_{hf}}$,h取遍f非缺失对象
f是标称的或二元的：$d_{ij}=1\ if\ x_{if}=x_{jf}$
f是序数的：$z_i=\frac{r_{if}-1}{M_f-1}$

2.4.7 余弦相似性

对于待比较的向量$x,y$，使用余弦度量$sim(x,y)=\frac{x\cdot y}{||x||\ ||y||}$