离群点检测：cell-based挖掘DB(r,p)离群点

Posted on 2025-05-01

Background

循环嵌套发现$DB(r,\pi)$离群点在离群点数目较少时，表现出线性的性能，因为循环经常提前退出，尽管它的算法复杂度为$O(N^2)$。当数据集很大时，开销主要来源是不能将数据集放入主存，而对检查每个对象都需要潜在地遍历整个数据集

将数据空间划分为$l$维网络，网络单元格对角线长度为$\frac r2$,边长为$\frac{r}{2\sqrt l}$;

对于单元格$c$，其余单元可以分为两类：

有两条几何上的先验性质(凸包)：

那么有两条相应的启发式剪枝规则：

大部分点经过两个规则的判断都可以确定是否是离群点了；

算法如何降低空间开销？

答案是三次数据集的扫描；