期末复习清单
期末复习
简介
- 什么是大数据?
- 大数据的特征(4V,IBM)
- 什么是数据挖掘?
- 知识发现的流程
- 数据挖掘的主要任务
- 关联规则挖掘
- 分类/回归
- 聚类分析
- 离群点检测
- 数据挖掘和其他学科的关系
认识数据和数据预处理
- 属性类型
- 数据类型
相似性度量
欧式距离
曼哈顿距离
闵可夫斯基距离
余弦距离
相关系数
马氏距离
KL散度
数据预处理
数据清理
- 缺失值处理
- 噪声处理
数据集成
相关分析
- 卡方分析
数据压缩
维度压缩
- PCA降维
- 特征筛选:信息增益
数据压缩
- 聚类
- 直方图
- 采样
数据变换
- 最大-最小归一化
- Z-score归一化
关联规则和挖掘
基本概念
- 频繁项集
- 什么是关联规则
Apriori算法
- 两个先验性质
- 算法流程
- 改进方法
FP_Growth
- 生成FP树,找频繁模式
- 候选集产生-测试
关联规则评估
- 置信度
- 提升度,兴趣因子
分类
- 监督学习vs无监督学习
- 判别模型vs生成模型
分类算法
决策树
- 如何构造决策树
- 如何对属性进行划分
- 划分准则:id3,c4.5,cart,选择最具划分能力的feature,使得划分后的数据集越纯越好
如何解决过拟合问题
过拟合的原因
如何避免过拟合
去除噪声
增加样本
Train-valid-test
正则项
限制树高
设置最大叶子节点阈值
先剪枝/后剪枝
KNN
- lazy learning
- 流程
- 优点,缺点
Naive Bayes
- 概率输出
- 类条件下特征独立
SVM
- 基本思想:间隔最大化
- 优点及其原因
- 支持最小样本
- 泛化能力强
- 高维非线性:核技巧
ANN
感知机
BP算法
优缺点:过拟合,训练慢
集成学习
- bagging(RF)
- Boosting
- stacking
聚类以及离群点检测
什么是聚类
聚类的功能
聚类的分类
基于划分的聚类
- K-means
- 流程:初始均值-簇分配-更新均值
- 缺点:初始值敏感,K是超参数,只能发现类球状簇,离群点敏感
- K-means
基于密度的聚类
- DBscan关键概念,密度可达
- DBscan流程
- DBscan优缺点:任意球状簇,无需设置K,噪声鲁棒,$\varepsilon$难求,很难找到不同密度的簇
基于层次的聚类:AGES,DJANA
基于网络的聚类:STNG
离群点检测
- 什么是离群点
- 离群点类型(全局,局部,集体)
- 方法
- 基于统计的方法
- 基于密度的方法
- LOF算法
- 基于偏离的方法
- 基于距离的方法
大数据技术
hash技术
- hash作用
- Shingle文档表征
- 最小哈希
- 如何得到签名矩阵
- 近似计算
- 局部敏感哈希
- 基本思想:通过映射函数找到相似的候选集
- trick:将签名矩阵划分为多个band,对每个band进行hash
数据流挖掘
- 挑战(4个)单程处理,内存限制,时间复杂度,概念漂移
- 什么是概念漂移
- 概念漂移的检测方法
- 基于分布的方法
- 基于错误率的方法
- 数据流分类
- 数据流聚类
- 框架:线上(微簇MC,簇特征,加减,增量)+线下
Hadrop/spork
- 什么是hadrop
- 设计准则:并行化(自动),容错及恢复,简明接口
hadrop生态
- HDFS(NatureNode,DataNode)
- Mapreduce(计算)
- spark(ROD:transformation懒惰,action)
- spark与Mapreduce比较