你好,用weka的聚类EM算法进行数据分析,buffer中对于离散属性的描述如下例:
ETHNIC属性有四个值
Attribute: ETHNIC Discrete Estimator. Counts = 3851.12 74.19 63.04 38.16 (Total = 4026.5)
这里的Total是什么意思啊,还有Counts后面这些数值的意思是什么啊?
请赐教,谢谢! 以下为blog主人的回复: EM算法在处理数值型数据时把数据的分布当作正态分布(或其他分布),在处理名词性数据时,实质上相当于贝叶斯方法,counts为属性的各种取值出现的次数,在weka中使用了“离散估计器”即在本来次数上加1,目的是防止0的出现(有的取值没有一条记录符合) |
|