分类(Classfication):前置知识
分类(Classfication):前置知识
Background
Content
监督学习vs无监督学习
监督学习:分类,回归
- 对象的类标签已知
- 通过类标签的指导下学习数据中的模式
- 利用获取的模式或者模型对新数据进行分类预测
无监督学习:Clustering, Frequent-Patten
- 数据集中对象的类标记(概念)是未知的;
- 挖掘潜在的数据内部模式;
生成模型vs判别模型
生成模型:希望从数据中学习出原始的真实数据生成模型。常见的方法是学习数据的联合概率分布。如Naive Bayes,Hidden Markov等。
判别模型:从数据中学习到不同类概念的区别(划分界限)从而进行分类。如KNN,SVM,ANN,Decision Tree
分类器的评估
二分类任务中的混淆矩阵:
$$
\begin{array}{c|c|c}\hline&\text{预测结果}\\hline\text{真实情况}&\text{正例}&\text{反例}\\hline\text{正例}&TP\text{(真正例)}&FN\text{(假反例)}\\hline\text{反例}&FP\text{(假正例)}&TN\text{(真反例)}\\hline\end{array}
$$
更详细的解释:
- TP:真正例,被正确分类的正样本
- TN:真负例,被正确分类的负样本
- FP:假正例,被错误分类的负样本
- FN:假负例,被错误分类的正样本
评价指标
查准率/精度(precision)为被分类为正样本中分类正确的比例
$$
P=\frac{TP}{TP+FP}
$$
查全率/敏感度(recall)为实际为正样本中分类正确的比例
$$
R=\frac{TP}{TP+FN}
$$
准确度/识别率(accuracy)为全体样本中分类正确的比例
$$
accuracy=\frac{TP+TN}{N+P}
$$
错误率(error)为全体样本中分类错误的比例
$$
error = \frac{FP+FN}{P+N}
$$
特效性$specificity=\frac{TN}{N}$,灵敏性$sensitivity=\frac{TP}{P}$
F度量
$$
F=\frac{2\times precision \times recall}{precision + recall}
$$
$$
F_{\beta}=\frac{(1+\beta^2)\times precision \times recall}{\beta^2 \times precision + recall}
$$