绪论

绪论

为什么进行数据挖掘

  • 数据挖掘把大型数据集转化成知识;
  • 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。
  • 并非所有数据分析都是“数据挖掘”:查询处理,专家系统或是小型的数学计算/统计程序

大数据的特征

Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.

数据量volume,数据种类variety,数据速度velocity,数据真实性varacity

image-20240528202216458

知识发现KDD:

  • 数据清理:消除噪声和删除不一致数据

  • 数据集成:多种数据源可以组合在一起

  • 数据选择:从数据库中提取与分析任务相关的数据

  • 数据变换:把数据变换和统一成适合挖掘的形式

  • 数据挖掘:核心步骤,使用智能方法提取数据模式

  • 模式评估:根据兴趣度度量,识别真正有趣的模式

  • 知识表示:使用知识表示技术,向用户提供挖掘的知识

数据挖掘的主要任务

  • 关联分析
  • 聚类分析
  • 分类/回归预测
  • 离群点分析

数据挖掘与其他学科

image-20240528222321530