期末复习清单

期末复习

简介

  • 什么是大数据?
  • 大数据的特征(4V,IBM)
  • 什么是数据挖掘?
  • 知识发现的流程
  • 数据挖掘的主要任务
    • 关联规则挖掘
    • 分类/回归
    • 聚类分析
    • 离群点检测
  • 数据挖掘和其他学科的关系

认识数据和数据预处理

  • 属性类型
  • 数据类型
  • 相似性度量

    • 欧式距离

    • 曼哈顿距离

    • 闵可夫斯基距离

    • 余弦距离

    • 相关系数

    • 马氏距离

    • KL散度

  • 数据预处理

    • 数据清理

      • 缺失值处理
      • 噪声处理
    • 数据集成

      • 相关分析

        • 卡方分析
      • 数据压缩

        • 维度压缩

          • PCA降维
          • 特征筛选:信息增益
        • 数据压缩

          • 聚类
          • 直方图
          • 采样
        • 数据变换

          • 最大-最小归一化
          • Z-score归一化

关联规则和挖掘

  • 基本概念

    • 频繁项集
    • 什么是关联规则
  • Apriori算法

    • 两个先验性质
    • 算法流程
    • 改进方法
  • FP_Growth

    • 生成FP树,找频繁模式
    • 候选集产生-测试
  • 关联规则评估

    • 置信度
    • 提升度,兴趣因子

分类

  • 监督学习vs无监督学习
  • 判别模型vs生成模型
  • 分类算法

    • 决策树

      • 如何构造决策树
      • 如何对属性进行划分
      • 划分准则:id3,c4.5,cart,选择最具划分能力的feature,使得划分后的数据集越纯越好
      • 如何解决过拟合问题

        • 过拟合的原因

        • 如何避免过拟合

          • 去除噪声

          • 增加样本

          • Train-valid-test

          • 正则项

          • 限制树高

          • 设置最大叶子节点阈值

          • 先剪枝/后剪枝

    • KNN

      • lazy learning
      • 流程
      • 优点,缺点
    • Naive Bayes

      • 概率输出
      • 类条件下特征独立
    • SVM

      • 基本思想:间隔最大化
      • 优点及其原因
        • 支持最小样本
        • 泛化能力强
        • 高维非线性:核技巧
    • ANN

      • 感知机

      • BP算法

      • 优缺点:过拟合,训练慢

    • 集成学习

      • bagging(RF)
      • Boosting
      • stacking

聚类以及离群点检测

  • 什么是聚类

  • 聚类的功能

  • 聚类的分类

    • 基于划分的聚类

      • K-means
        • 流程:初始均值-簇分配-更新均值
        • 缺点:初始值敏感,K是超参数,只能发现类球状簇,离群点敏感
    • 基于密度的聚类

      • DBscan关键概念,密度可达
      • DBscan流程
      • DBscan优缺点:任意球状簇,无需设置K,噪声鲁棒,$\varepsilon$难求,很难找到不同密度的簇
    • 基于层次的聚类:AGES,DJANA

    • 基于网络的聚类:STNG

  • 离群点检测

    • 什么是离群点
    • 离群点类型(全局,局部,集体)
    • 方法
      • 基于统计的方法
      • 基于密度的方法
      • LOF算法
      • 基于偏离的方法
      • 基于距离的方法

大数据技术

  • hash技术

    • hash作用
    • Shingle文档表征
    • 最小哈希
    • 如何得到签名矩阵
    • 近似计算
    • 局部敏感哈希
      • 基本思想:通过映射函数找到相似的候选集
      • trick:将签名矩阵划分为多个band,对每个band进行hash
  • 数据流挖掘

    • 挑战(4个)单程处理,内存限制,时间复杂度,概念漂移
    • 什么是概念漂移
    • 概念漂移的检测方法
      • 基于分布的方法
      • 基于错误率的方法
      • 数据流分类
      • 数据流聚类
        • 框架:线上(微簇MC,簇特征,加减,增量)+线下
  • Hadrop/spork

    • 什么是hadrop
    • 设计准则:并行化(自动),容错及恢复,简明接口
    • hadrop生态

      • HDFS(NatureNode,DataNode)
      • Mapreduce(计算)
      • spark(ROD:transformation懒惰,action)
      • spark与Mapreduce比较