本站首页    管理页面    写新日志    退出

公告

You are all my reasons! 

桃李花林又一在

淫荡一日同风起,风骚直上九万里

仙子凌波微步罗衫飘忽十步一回头

我的最爱:网游,程序,文学

QQ:89636669


我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:一维空间
日志总数:163
评论数量:248
留言数量:33
访问次数:650186
建立时间:2007年10月24日




 [机器学习]【转】SVM学习之一:libsvm中的数据预处理

dskongenius 发表于 2008/3/26 14:14:32

 原文请见http://axywestwind.bokee.com/viewdiary.14485683.html 最近在看SVM,无意中发现这个专题,收益非浅,故转来收藏,作者莫怪 名词解释: (1) SVM(Support Vector Machine)是从瓦普尼克(Vapnik)的统计学习理论发展而来的,主要针对小样本数据进行学习、分类和预测(有时也叫回归)的一种方法,能解决神经网络不能解决的过学习问题。作者以为,类似的根据样本进行学习的方法还有基于案例的推理(Case-Based Reasoning),决策树归纳算法C4.5等,以后将详细阐述这两种方法。 (2)过学习问题:训练误差过小导致推广能力下降,即真实风险的增加。 (3)推广能力:generalization ability,也可以说是泛化能力,就是对未知样本进行预测时的精确度。   原文:A practical guide to support vector classification. libsvm中的样本预处理的原则有2个: 1 非数值属性(Categorical Feature)     由于SVM要求被处理的数据都是实数,因此对于属性值为类别的属性要进行转换。例如{red, green, blue},可以转换成3个属性 red    (1, 0, 0) green  (0, 1, 0) blue   (0, 0, 1) 来表示。经验表明当这样的非数值属性的取值不是太多(这个具体数字不明确)的时候,这种编码比用一个数字来表示属性的类别要稳定的多,比如用1, 2, 3来分别表示red, green, blue就不太合适了。目前,这个过程没有实现自动处理,需要使用者根据属性取值的多少自己动手去修改。 2 缩放(scaling)     进行缩放的原因和使用神经网络时的考虑是一样的,由于RBF网络中采用样本数据的欧式距离来计算。主要优点就是避免数值范围较大的属性控制数值范围较小的属性。另一个优点就是避免计算时的numerical difficulties. 因为核值通常依赖特征向量的内积(inner product),而较大的属性值可能导致numerical问题。因此推荐把每个属性缩放到[-1, 1]或者[0, 1]之间,而且前一个范围要比后一个好,即对列向量进行规范化,其详细解释和计算公式见http://www.faqs.org/faqs/ai-faq/neural-nets/part2/中的“Should I standardize the input variables (column vectors)?”。libsvm中没有考虑属性的类型(效益、成本、固定、偏离、区间、偏离区间 6 种不同的属性类型的规范化计算公式是不一样的,详见:徐泽水,《不确定多属性决策方法及应用》,清华大学出版社,2004。)而采用了统一的线性缩放,作者以为此处可以改进一下。     需要注意的是,在进行测试之前,要对测试数据进行同样的缩放操作。其实在libsvm中有程序(svmscale.exe)来进行缩放操作,也可以不用手工缩放,只要用easy.py来对(经过非数值的归一化处理之后的)原始数据直接操作即可。       上面这两种方法基本上可以完成所有的样本的预处理了。其实只有原则 1 是需要自己手工改动的,其他工作在libsvm中的tool文件夹下都由现成的python程序处理。


阅读全文(7568) | 回复(1) | 编辑 | 精华

 


 回复:【转】SVM学习之一:libsvm中的数据预处理

宠儿(游客)发表评论于2009/4/9 11:59:38

尿毒症 肾病综合症 肾病 急性肾炎 慢性肾炎 肾炎 电脑票据 票据印刷 无碳复写纸印刷 打孔无碳 OTDR 光万用表 误码仪 ADSL测试仪 信号源 千兆以太网测试仪 防雷器测试仪 地阻仪 地下管线测试仪 网络认证测试仪 天馈线测试仪 熔接机 光功率计 热像仪


个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.031 second(s), page refreshed 144752452 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号