Introduction

Apriori算法

input.txt

  • 每一个事务都是由不到150的单项组成,用字符串表示;
  • 总共100个事务;

output.txt

  • 一共挖掘出约4500个频繁项集;
  • 最长的项集长度为10;

基本参数

  • 最小支持度:0.2
  • 最小置信度:0.3

相关笔记

  • 数据预处理

    1. 找到全体频繁1-项集
    2. 按照支持度降序给每个事务重新排序
  • 递归连接

    1. 假设生成全体频繁k项集$L_k$,对于每一个可连接的$l_i,l_j\in L_k$,
      • 称频繁k项集a,b可连接,如果它们前k-1项相同但是最后一项不同
    2. 将$L_i \cup L_j$ 加入$L_{k+1}$
  • 剪枝

    • 扫描刚刚生成的$L_{k+1}$,剪去那些非频繁的项集
  • 对于某一个频繁项集$L$,其自动满足关联规则的支持度规则,因此划分称两个部分$L=A\cup B$

    • 如果$A\to B$满足置信度规则,那么这个关联规则就是强规则