Introduction
Apriori算法
input.txt
- 每一个事务都是由不到150的单项组成,用字符串表示;
- 总共100个事务;
output.txt
- 一共挖掘出约4500个频繁项集;
- 最长的项集长度为10;
基本参数
- 最小支持度:0.2
- 最小置信度:0.3
相关笔记
数据预处理
- 找到全体频繁1-项集
- 按照支持度降序给每个事务重新排序
递归连接
- 假设生成全体频繁k项集$L_k$,对于每一个可连接的$l_i,l_j\in L_k$,
- 称频繁k项集a,b可连接,如果它们前k-1项相同但是最后一项不同
- 将$L_i \cup L_j$ 加入$L_{k+1}$
- 假设生成全体频繁k项集$L_k$,对于每一个可连接的$l_i,l_j\in L_k$,
剪枝
- 扫描刚刚生成的$L_{k+1}$,剪去那些非频繁的项集
对于某一个频繁项集$L$,其自动满足关联规则的支持度规则,因此划分称两个部分$L=A\cup B$
- 如果$A\to B$满足置信度规则,那么这个关联规则就是强规则