公告
求真务实打基础, 宁缺毋滥读好书。
数据挖掘青年(DMman)
链接
Blog信息
blog名称:DMman(数据挖掘青年) 日志总数:102 评论数量:564 留言数量:57 访问次数:1756313 建立时间:2007年4月9日
[程序人生] 程序员的10种级别 网上资源
数据挖掘青年 发表于 2007/9/7 19:14:07
DMman认为,程序员是一种聪明的职业,“并非努力,便能做好”的性质更加明显。祝愿每一个程序员都能快乐的实现自己的价值!
第一级:神人,天资过人而又是技术狂热者同时还拥有过人的商业头脑,高瞻远瞩,技术过人,大器也。如丁磊,求伯君。
第二级:高人,有天赋,技术过人但没有过人的商业头脑,通常此类人不是顶尖黑客就是技术总监之流。
第三级:牛人,技术精湛,熟悉行业知识,敢于创新,有自己的公司和软件产品。
第四级:工头,技术精湛,有领导团队的能力,此类人大公司项目经理居多。
第五级:技术工人,技术精湛,熟悉行业知识但领导能力欠加,此类人
[杂谈] 不觉又是一年 原创空间 , 心得体会
数据挖掘青年 发表于 2007/9/1 21:38:32
9月1日新生开学有感
岁月荏苒,不觉又是一年。江湖多事,恍然已是昨日。
好一句“岁月如潮人如水”,时间果然如流水匆逝,等你感觉到之时,她已逝去好久了。
早已没有了“我拿青春赌明天”幼稚之妄,也没有了“振臂一挥应者云集”的豪然之想,取而代之的是愈然的平静,愈然的冷眼——不晓得,这是一种进步,还是一种倒退?
时间总得留下点什么,不仅仅是头发的生落,也要有大脑的丰富;不仅仅是酒肉的穿肠过,更要有诗书的心中留。
其实,时间只晓得带走东西,从不在乎留下什么东西——决定她留下什么的是我们自己。她带走了我们的青春年华,我们却要以内涵的提升来补偿我们逝去的生命。
[数据挖掘] Matlab的数据挖掘工具箱spider 网上资源 , 心得体会
数据挖掘青年 发表于 2007/8/19 16:17:35
一 spider主页http://www.kyb.mpg.de/bs/people/spider/ (也可以在google上搜索spider matlab得到),关于它的介绍可以参考网址资料
二 使用时为matlab+spider+Weka;因为spider中的一些算法引用了Weka,比如j48
安装注意:
1 matlab7(R14)
6.5版本对java的支持不够,还没有开发javaclasspath等函数
[数据挖掘] Semi-Supervised Learning(半监督学习) 网上资源 , 心得体会
数据挖掘青年 发表于 2007/8/18 18:42:41
以下为Xiaojin Zhu在ICML2007上的陈述内容梗概,更多内容可以在他的主页上得到。懒得整理成中文了,而且很多术语虽然理解了意思,但还不知道确切的中文描述...现在才深刻体会到,要想学习前沿的知识,只有通过互联网,平常看书只是看些稳定成型的老知识。。。
半监督学习已经兴起七八年了吧,但在中国还是刚刚起步罢。
一、Introduction to semi-supervised learning
What is semi-supervised learning and transductive learning? Why can we ever learn a classifier from unlabeled data? Does unlabeled data always help? Which semi-supervised learning methods are out there? Which one should I u
[数据挖掘] 决策树的经典构造算法ID3&C4.5 网上资源
数据挖掘青年 发表于 2007/7/23 9:36:16
决策树概述: 决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等),来限制决策树的。决策树作为一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。构造决策树的过程为:首先寻找初始分裂。整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。建决策树,就是根据记录字段的不同取值建立树的分支,以及在每个分支子集中重复建立下层结点和分支。建决策树的关键在于建立分支时对记录字段不同取值的选择。选择不同的字段值,会使划分出来的记
[杂谈] 同一片天空下,却不在同一个世界中 原创空间 , 心得体会 , 所见所闻
数据挖掘青年 发表于 2007/7/22 15:02:48
久未更新博客,虽每天都登上来看看。以前博客,大都转载,只有几篇,自己逐字敲得。而且,以前的初衷一直是打造知识型博客,不想涉及自己的内心感受。再者本科以来,久未动笔,构思一文不如看会专业书。最近数日,夜夜反恐,持续月余,时间流水,未尝心痛。近几日突感疲惫,夜眠午休,乱梦纷纭,长睡不醒;醒来恍惚,如熬通宵。昨夜一梦,吾乃皇上十大侍卫火枪手之一;今午一梦,吾为陈胜吴广辈,造反一奴隶...今日廖写数字:
青岛也算是我国好城市之一罢,在这里呆了5年了,熟悉了很多。纯真的少年时代留在了家乡的小学、初中、高中,走向成熟的记忆都写在了这个城市。虽然如此,也许还未到离开,我感觉不到对它的依恋。5年以来,由激进到沧桑,由追求完美到爱上自己的缺点。一切都变了,一切都还在变。
青岛的街头也是有乞丐的,见的很多了。有些天生残疾(似乎还有些是后天化妆),诸如腿长到了肩膀上面的;还有老人。以前我从来没有给过他们钱,哪怕是一元。我想我给他一元钱改变不了什么。这样想
[数据挖掘] 数据挖掘新手常见疑问解答(2) 网上资源
数据挖掘青年 发表于 2007/7/8 21:47:26
说明:这些问题以及他们的解答来自数据挖掘者的博客http://blogger.org.cn/blog/blog.asp?name=idmer,由DMman整理,日期截止到2007-6-20。挑选了其中比较有实际应用意义的若干。涉及到数据挖掘的前景、学习数据挖掘需要学什
[数据挖掘] 数据挖掘新手常见疑问解答(1) 网上资源
数据挖掘青年 发表于 2007/7/8 21:37:10
说明:这些问题以及他们的解答来自数据挖掘者的博客http://blogger.org.cn/blog/blog.asp?name=idmer,由DMman整理,日期截止到2007-6-20。挑选了其中比较有实际应用意义的若干。涉及到数据挖掘的前景、学习数据挖掘需要学什
[Weka] 在自己的算法中调用Weka实现文本分类的一个例子 原创空间
数据挖掘青年 发表于 2007/7/4 17:47:57
1 介绍:嵌入式机器学习,在自己的算法中调用Weka现文本分类,是一个小的数据挖掘程序,虽然实用价值不是很大,但对于Weka的理解和使用是有帮助的。本例子来自《数据挖掘:实用机器学习技术》第2版(好像是倒数第三章)。大家可以到http://blogger.org.cn/blog/message.asp?name=DMman#23691 下载该书察看对算法的详细解释。算法中作了详细的注释,虽然是英文的,但还是比较简单。下面对例子的使用作了浅显的介绍,有兴趣的朋友可以研究。
2 功能:使用weka中的j48分类器实现了文本分类的一个小程序。文本文件通过weka的过滤器StringToWordVector预处理。
3 注意:把weka.jar加入你的classpath中,才可以通过编译。
4 使用方法: 命令行参数: -t 文本文件路径 -m 你的模型文件