公告 |
You are all my reasons!
桃李花林又一在
淫荡一日同风起,风骚直上九万里
仙子凌波微步罗衫飘忽十步一回头
我的最爱:网游,程序,文学
QQ:89636669
|
Blog信息 |
blog名称:一维空间 日志总数:163 评论数量:248 留言数量:33 访问次数:650355 建立时间:2007年10月24日 |

| |
[机器学习]libSVM 简易入门(主要是分类)
dskongenius 发表于 2008/4/15 22:53:00 |
原作:林弘德
为什么写这个指南
我一直觉得 SVM 是个很有趣的东西,不过一直沒办法去听林智仁老師 的 Data mining与SVM的课,后来看了一些Internet上的文件,后来听 kcwu 讲了一下 libsvm 的用法后,就想整理一下,算是对于并不需要知道完整 SVM 理论的人提供使用 libsvm 的入门。 原始 libsvm 的README跟FAQ也是很好的文件, 不过你可能要先对 svm 跟流程有点了解后才看得懂 (我在看时有这样的感觉); 这篇入门就是为了从零开始的人而写的。 不过请记得底下可能有些说法不一定对,但是对于只是想用 SVM 的人来说我觉得这样说明会比较易懂。这篇入门原则上是给会写基本程序的人看的,也是给我自己一个备忘, 不用太多数学底子,也不用对
阅读全文(4398) | 回复(1) | 编辑 | 精华 | 删除
|
[机器学习]TF/IDF【转】
dskongenius 发表于 2008/4/15 22:34:43 |
转自http://bbskill.spaces.live.com/blog/cns!d64f61b0953689b0!260.entry
TF/IDF
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。
一。TF/IDF描述单个term与特定document的相关性
TF(Term Frequency): 表示一个term与某个document的相关性。 公式为这个term在document中出现的次数除以该document中所有term出现的总次数.
IDF(Inverse Document Frequency)表示一个term表示doc
阅读全文(2620) | 回复(0) | 编辑 | 精华 | 删除
|
[机器学习]【转】SVM学习之六——SMO算法分析与程序实现
dskongenius 发表于 2008/3/26 14:35:01 |
先提供一个 libsvm 2.6 的程序源码注释http://www.pami.sjtu.edu.cn/people/gpliu/document/libsvm_src.pdf,大家先看看,具体的算法分析以后再写,最近比较忙!
本文中提到的算法是 Platt 在1998年提出、由 Fan 等人于2005年改进的序列最小最优化(Sequential Minimal Optimization,SMO)分解方法,程序源码参考libsvm-2.8.3 (http://www.csie.ntu.edu.tw/~cjlin/libs
阅读全文(9305) | 回复(0) | 编辑 | 精华 | 删除
|
[机器学习]【转】SVM学习之五——支持向量机的原理
dskongenius 发表于 2008/3/26 14:33:05 |
名词解释1——支持向量机:“机(machine,机器)”实际上是一个算法。在机器学习领域,常把一些算法看作是一个机器(又叫学习机器,或预测函数,或学习函数)。“支持向量”则是指训练集中的某些训练点的输入 xi 。它是一种有监督(有导师)学习方法,即已知训练点的类别,求训练点和类别之间的对应关系,以便将训练集按照类别分开,或者是预测新的训练点所对应的类别。
名词解释2——符号函数:sgn(a) = 1, a >= 0;sgn(a) = -1, a < 0.
一般地,考虑 n 维空间上的分类问题,它包含 n 个指标和 l 个样本点。记这 l 个样本点的集合为 T = {(x1,y1),...,(xl,yl)},其中 xi 是输入指标向量,或称输入,或称模式,其分量称为特征,或属性,或输入指标;yi 是输出指标向量,或称输出,i = 1,...,l。 这 l 个
阅读全文(3740) | 回复(0) | 编辑 | 精华 | 删除
|
[机器学习]【转】SVM学习之四——从机器学习到支持向量机
dskongenius 发表于 2008/3/26 14:24:28 |
机器学习(Machine Learning, ML)的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它(这种关系)能够对未知输出做出尽可能准确地预测。机器学习至今没有一个精确的公认的定义。作为人工智能(Artificial Intelligence, AI)的一个重要研究领域,ML的研究工作主要围绕学习机理、学习方法和面向任务这三个基本方面进行研究。模式识别、函数逼近和概率密度估计是三类基本的ML问题。
从数学的角度来考虑,机器学习问题就是已知n个独立同分布的观测样本,在同一组预测函数中求一个最优的函数对依赖关系进行估计,使期望风险R[f]最小。损失函数是评价预测准确程度的一种度量,它与预测函数f(x)密切相关。而
阅读全文(1987) | 回复(0) | 编辑 | 精华 | 删除
|
[机器学习]【转】SVM学习之三——简单世界和复杂世界
dskongenius 发表于 2008/3/26 14:23:07 |
统计学习理论(Vapnik V N, 许建华 张学工译, 电子工业出版社, 2004)是SVM的坚实的理论基础,其作者指出,在可以只用几个变量描述的简单世界中,传统的科学哲学的目标是“发现普遍的自然规律”。但是,这一目标在需要用很多变量描述的复杂世界中不一定可行。因此,在一个复杂世界中,我们需要放弃寻找一般规律的目标,而考虑其他目标。
在Vapnik的The nature of statistical learning theory(1995年)一书中,作者对复杂世界的推理提出了如下法则:“在解决一个感兴趣的问题时,不要把解决一个更一般的问题作为一个中间步骤。要试图得到所需要的答案,而不是更一般的答案。很可能你拥有足够的信息来很好地解决一个感兴趣的特定问题,但却没有足够的信息来解决一个一般性的问题。”
东亚人就是这种理论的坚决执行者,“他们注重在其所处环境中的对象,很少
阅读全文(1954) | 回复(0) | 编辑 | 精华 | 删除
|
[机器学习]【转】SVM学习之二——“推广能力”
dskongenius 发表于 2008/3/26 14:21:28 |
“推广能力”是分类问题(classification,也称为模式识别问题,在概率统计中则称为判别分析问题)的一个指标。所谓推广就是在求得决策函数f(x)后,对一个新的输入x,按照y=f(x)推断出x相应的输出y。“推广能力”就是描述推广优劣的一种度量。
那么,决策函数f(x)是怎么回事?这要从分类问题的(数学语言描述的)定义说起,参见(邓乃扬等人的《数据挖掘中的新方法——支持向量机》,科学出版社,2005)。通俗的讲。就是一个表示x,y之间关系的函数,而x,y就是样本中的一对数据。其中x代表输入,y代表类别。分类问题就是找到这个决策函数f(x),而对于新的输入x,能够判断其所属类别y则是个预测(回归)问题。
阅读全文(3422) | 回复(0) | 编辑 | 精华 | 删除
|
[机器学习]【转】SVM学习之一:libsvm中的数据预处理
dskongenius 发表于 2008/3/26 14:14:32 |
原文请见http://axywestwind.bokee.com/viewdiary.14485683.html
最近在看SVM,无意中发现这个专题,收益非浅,故转来收藏,作者莫怪
名词解释:
(1) SVM(Support Vector Machine)是从瓦普尼克(Vapnik)的统计学习理论发展而来的,主要针对小样本数据进行学习、分类和预测(有时也叫回归)的一种方法,能解决神经网络不能解决的过学习问题。作者以为,类似的根据样本进行学习的方法还有基于案例的推理(Case-Based Reasoning),决策树归纳算法C4.5等,以后将详细阐述这两种方法。
(2)过学习问题:训练误差过小导致推广能力下降,即真实风险的增加。
(3)推广能力:generalization ability,也可以说是泛化能力,就是对未知样本进行预测时的精确度。
&nbs
阅读全文(7569) | 回复(1) | 编辑 | 精华 | 删除
|
|