数据仓库和联机分析处理

第四章:数据仓库和联机分析处理

  • 构建数据仓库: 数据清理,数据集成,数据变换
  • 数据仓库提供OLAP工具

4.1 数据仓库:基本概念

4.1.1 什么是数据仓库

  • 面向问题
  • 集成的
  • 时变的
  • 非易失的
  • 支持管理者的决策过程
  • 更新驱动的:将多个异构数据库的信息预先集成,重新组织到语义一致的数据存储(不必像查询驱动方法,和局部数据源竞争资源)

4.1.2 操作数据库系统与数据仓库的区别

  • 联机事务处理OLTP:联机事务,查询处理
  • 联机分析处理OLAP:用不同格式组织数据
  • 区别:
    • OLTP面向顾客,OLAP面向市场
    • OLTP数据琐碎难以用于决策,OLAP汇总集成数据,有利于决策
    • OLTP采用ER数据模型(实体-联系)和面向应用的数据库设计,OLAP通常采用星形或雪花模型和面向主题的数据库设计
    • OLTP主要关注企业当前数据,OLAP常常跨越数据库模式
    • 访问模式:OLTP主要由原子事务组成,OLAP大量只读操作

4.1.3 为什么需要分离的数据仓库

  • 在操作数据库上进行OLAP查询,可能会使得操作任务性能降低
  • OLAP查询对汇总数据记录进行只读访问,不适用操作数据库的多事务的并发处理
  • 两种数据库路的结构内容和用法不相同

4.1.4 数据仓库:一种多层体系结构

  • 底层: 仓库数据服务器
  • 中间层:OLAP服务器
  • 前端客户层

4.1.5 数据仓库模型:企业仓库、数据集市和虚拟仓库

  • 企业仓库:搜集了关于主题的全部信息
  • 数据集市:范围限定与选定主题
  • 虚拟仓库:操作数据库上视图的集合

4.1.6 数据提取、变换和装入

  • 利用后端工具加载和刷新数据
  • 数据提取,清理,变换,装入,刷新

4.1.7 元数据库

  • 数据仓库结构的描述
  • 操作元数据
  • 用于汇总的算法
  • 由操作环境到数据仓库的映射
  • 关于系统性能的数据
  • 商务元数据

4.2 数据仓库建模:数据立方体与OLAP

4.2.1 什么是数据立方体:一种多为数据模型

  • 维,维表
  • 事实,事实表
  • 基本方体,顶点方体:诸维每个可能子集形成方体的格
  • ![1710852368991](D:/Desktop/myfile/UESTC undergraduate course/Grade Ⅳ/数据挖掘和大数据分析/notes/认识数据和数据预处理/image/第四章:数据仓库和联机分析处理/1710852368991.png)

4.2.2 星形,雪花形和事实星座:多为数据模型的模式

  • 星形模式:
    ![1710852509245](D:/Desktop/myfile/UESTC undergraduate course/Grade Ⅳ/数据挖掘和大数据分析/notes/认识数据和数据预处理/image/第四章:数据仓库和联机分析处理/1710852509245.png)
  • 事实星座:
    ![1710852610476](D:/Desktop/myfile/UESTC undergraduate course/Grade Ⅳ/数据挖掘和大数据分析/notes/认识数据和数据预处理/image/第四章:数据仓库和联机分析处理/1710852610476.png)

4.2.3 维:概念分层的应用

  • 模式分层:形成数据库模式中的属性的全序和偏序的概念分层
  • 集合分组分层:将给定位或属性的值离散化

4.2.4 度量的分类和计算

度量根据所用的聚集函数分为3类

  • 分布式:聚集函数例如sum(),min(),max(),count()函数用于划分数据集的得到的聚集值的结果和函数用于不划分的数据集结果一致
  • 代数的:聚集函数可以用让若干参数计算,这些参数可以用分布聚集函数求得,比如avg=sum()/count()
  • 整体的:不存在有限个参数的代数函数可以计算出来,比如median(),mode(),rank()

4.2.5 典型的OLAP操作

  • 上卷
  • 下钻
  • 切片
  • 转轴

4.2.6 查询多为数据库的星网查询模型

  • ![1710853897932](D:/Desktop/myfile/UESTC undergraduate course/Grade Ⅳ/数据挖掘和大数据分析/notes/认识数据和数据预处理/image/第四章:数据仓库和联机分析处理/1710853897932.png)

4.3 数据仓库的设计与使用

4.3.1 数据仓库的设计的商务分析框架

  • 自顶向下视图
  • 数据源视图
  • 数据仓库视图
  • 商务查询视图

4.3.2 数据仓库的设计过程

  • 自顶向下
  • 自底向上
  • 二者结合的混合设计

4.3.3 数据仓库用于信息处理

三类数据仓库应用:

  • 数据处理
  • 分析处理
  • 数据挖掘

4.3.4 从联机分析处理到多维数据挖掘

多维数据挖掘OLAM:数据挖掘与OLAP技术的集成

4.4 数据仓库的实现

4.4.1 数据立方体的有效计算:概述

  • compute cube操作和维灾难
    • $\text{方体总数}=\prod(\text{关联层数}_i+1)$
  • 部分物化:方体的选择计算
    • 物化一个外壳立方体:与计算少量维,其他的组合查询临时计算

4.4.2 索引OLAP数据:位图索引和连接索引

  • 位图索引:
    ![1710855256882](D:/Desktop/myfile/UESTC undergraduate course/Grade Ⅳ/数据挖掘和大数据分析/notes/认识数据和数据预处理/image/第四章:数据仓库和联机分析处理/1710855256882.png)
  • 连接索引
    ![1710855448916](D:/Desktop/myfile/UESTC undergraduate course/Grade Ⅳ/数据挖掘和大数据分析/notes/认识数据和数据预处理/image/第四章:数据仓库和联机分析处理/1710855448916.png)

4.4.3 OLAP查询的有效处理

  • 确定哪些操作可以在可利用的方体执行
  • 确定相关操作应该使用哪些物化的方体

4.4.4 OLAP服务器结构

  • 关系OLAP服务器ROLAP
  • 多维OLAP服务器HOLAP
  • 混合OLAP服务器
  • 特殊的SQL服务器

4.5 数据泛化:面向属性的归纳

4.5.1 数据特征的面向属性的归纳

  • 基本操作:数据泛化
    • 属性删除
    • 属性泛化
      • 属性泛化阈值控制
      • 广义关系阈值控制

4.5.2面向属性归纳的有效实现

  • 关系查询
  • 收集初始关系的统计量
  • 导出主关系P

4.5.3 类比较的面向属性归纳

如何进行类比较?

  • 数据收集
  • 相关维分析
  • 同步泛化
  • 导出比较的表示