期末复习清单

Posted on 2025-05-01

期末复习

简介

什么是大数据？
大数据的特征（4V,IBM）
什么是数据挖掘？
知识发现的流程
数据挖掘的主要任务
- 关联规则挖掘
- 分类/回归
- 聚类分析
- 离群点检测
数据挖掘和其他学科的关系

认识数据和数据预处理

属性类型
数据类型

相似性度量
- 欧式距离
- 曼哈顿距离
- 闵可夫斯基距离
- 余弦距离
- 相关系数
- 马氏距离
- KL散度
数据预处理
- 数据清理
  - 缺失值处理
  - 噪声处理
- 数据集成
  - 相关分析
    - 卡方分析
  - 数据压缩
    - 维度压缩
      - PCA降维
      - 特征筛选：信息增益
    - 数据压缩
      - 聚类
      - 直方图
      - 采样
    - 数据变换
      - 最大-最小归一化
      - Z-score归一化

关联规则和挖掘

基本概念
- 频繁项集
- 什么是关联规则
Apriori算法
- 两个先验性质
- 算法流程
- 改进方法
FP_Growth
- 生成FP树，找频繁模式
- 候选集产生-测试
关联规则评估
- 置信度
- 提升度，兴趣因子

分类

监督学习vs无监督学习
判别模型vs生成模型

分类算法
- 决策树
  - 如何构造决策树
  - 如何对属性进行划分
  - 划分准则：id3,c4.5,cart,选择最具划分能力的feature，使得划分后的数据集越纯越好
  - 如何解决过拟合问题
    - 过拟合的原因
    - 如何避免过拟合
      - 去除噪声
      - 增加样本
      - Train-valid-test
      - 正则项
      - 限制树高
      - 设置最大叶子节点阈值
      - 先剪枝/后剪枝
- KNN
  - lazy learning
  - 流程
  - 优点，缺点
- Naive Bayes
  - 概率输出
  - 类条件下特征独立
- SVM
  - 基本思想：间隔最大化
  - 优点及其原因
    - 支持最小样本
    - 泛化能力强
    - 高维非线性：核技巧
- ANN
  - 感知机
  - BP算法
  - 优缺点：过拟合，训练慢
- 集成学习
  - bagging（RF）
  - Boosting
  - stacking

聚类以及离群点检测

什么是聚类
聚类的功能
聚类的分类
- 基于划分的聚类
  - K-means
    - 流程：初始均值-簇分配-更新均值
    - 缺点：初始值敏感，K是超参数，只能发现类球状簇，离群点敏感
- 基于密度的聚类
  - DBscan关键概念，密度可达
  - DBscan流程
  - DBscan优缺点：任意球状簇，无需设置K，噪声鲁棒，$\varepsilon$难求，很难找到不同密度的簇
- 基于层次的聚类：AGES，DJANA
- 基于网络的聚类：STNG
离群点检测
- 什么是离群点
- 离群点类型（全局，局部，集体）
- 方法
  - 基于统计的方法
  - 基于密度的方法
  - LOF算法
  - 基于偏离的方法
  - 基于距离的方法

大数据技术

hash技术
- hash作用
- Shingle文档表征
- 最小哈希
- 如何得到签名矩阵
- 近似计算
- 局部敏感哈希
  - 基本思想：通过映射函数找到相似的候选集
  - trick：将签名矩阵划分为多个band，对每个band进行hash
数据流挖掘
- 挑战（4个）单程处理，内存限制，时间复杂度，概念漂移
- 什么是概念漂移
- 概念漂移的检测方法
  - 基于分布的方法
  - 基于错误率的方法
  - 数据流分类
  - 数据流聚类
    - 框架：线上（微簇MC，簇特征，加减，增量）+线下
Hadrop/spork
- 什么是hadrop
- 设计准则：并行化（自动），容错及恢复，简明接口
- hadrop生态
  - HDFS（NatureNode,DataNode）
  - Mapreduce（计算）
  - spark（ROD：transformation懒惰，action）
  - spark与Mapreduce比较

0%