绪论
绪论
为什么进行数据挖掘
- 数据挖掘把大型数据集转化成知识;
- 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。
- 并非所有数据分析都是“数据挖掘”:查询处理,专家系统或是小型的数学计算/统计程序
大数据的特征
Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.
数据量volume,数据种类variety,数据速度velocity,数据真实性varacity
知识发现KDD:
数据清理:消除噪声和删除不一致数据
数据集成:多种数据源可以组合在一起
数据选择:从数据库中提取与分析任务相关的数据
数据变换:把数据变换和统一成适合挖掘的形式
数据挖掘:核心步骤,使用智能方法提取数据模式
模式评估:根据兴趣度度量,识别真正有趣的模式
知识表示:使用知识表示技术,向用户提供挖掘的知识
数据挖掘的主要任务
- 关联分析
- 聚类分析
- 分类/回归预测
- 离群点分析