ChiMerge 算法: 以鸢尾花数据集为例
ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。
参考:
1. ChiMerge:Discretization of numeric attributs
2. Chi算法
参考1的要点:
>>> ================================ RESTART ================================>>> Start: Mon Mar 25 21:31:40 2013['4.3', '4.9', '5.0', '5.5', '5.8', '7.1']['2.0', '2.3', '2.5', '2.9', '3.0', '3.4']['1.0', '3.0', '4.5', '4.8', '5.0', '5.2']['0.1', '1.0', '1.4', '1.7', '1.8', '1.9']End: Mon Mar 25 21:31:40 2013>>>