Blog信息 |
|
blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2510758 建立时间:2005年6月24日 |
我的相册 |
|

|
联系方式 |
 |
|
| |
公告 |
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com 我的新浪微博:@张磊IDMer |
网络日志 |
|
KDnuggets:Polls:常用数据挖掘技术(Feb 2005) |
|
|
|
|
|
数据挖掘者 发表于 2005/7/3 13:48:34 |
|
|
|
IDMer总结: 决策树和回归是目前用于预测和分类的主要技术,特别是商用领域,理由是解释能力强,便于指导业务。神经网络、SVM和Bayesian等技术仍限于研究领域。 聚类分析则是常用的描述型挖掘技术,一般用于客户分群。 统计分析和可视化是基础,无论是商用还是研究都应掌握和关注。 关联分析和时间序列分析也是常用的技术。
以下内容引自KDnuggets(http://www.kdnuggets.com/polls/2005/data_mining_techniques.htm): KDnuggets :
阅读全文(4332) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
KDnuggets:Polls:数据挖掘工具的选用(May 2005) |
|
|
|
|
|
数据挖掘者 发表于 2005/7/3 13:35:06 |
|
|
|
IDMer总结: 在商用领域的数据挖掘工具选择中,SPSS和SAS占据了统治地位(特别是针对中高端的商用项目);Microsoft SQL Server领先于Oracle、IBM等挖掘工具的确让人有点出乎意料(估计还是在比较小的项目里会选用);Excel占据了较大份额一方面是由于它过于流行易于掌握,另一方面其可编程性(通过VBA)应该是开发人员选用它的最大原因。 在研究领域,自己开发程序可以寻求算法上的改进和突破,S-Plus、Statistica、Weka、MATLAB等等都是不错的选择。 我不太熟悉CART/MARS/TreeNet/RF,有哪位了解它的请在本贴留言介绍一下。
以下内容引自KDnuggets(http://www.kdnuggets.com/polls/2005/data_mining_tools.htm): 删除 |
|
|
|
|
|
|
|
KDnuggets:Polls:数据存储格式 (June 2005) |
|
|
|
|
|
数据挖掘者 发表于 2005/7/3 13:19:52 |
|
|
|
IDMer总结:
在数据挖掘中,采用文本格式来存储数据是目前的主流(占32%),其次是将数据存储在数据库中(占23%),其它的则是存储在DM软件专有格式中(SAS、SPSS、Excel等)。由此可见,采用何种格式来存储数据挖掘所用的数据,首先考虑的要素是数据的可交换性,文本方式和关系数据库如此流行,一方面是因为可以方便的存取和处理,另一方面是因为DM工具对它们具有良好的支持。
以下内容引自KDnuggets(http://www.kdnuggets.com/polls/2005/data_storage_formats.htm):
KDnuggets : 删除 |
|
|
|
|
|
|
|
机器学习介绍(编译) |
|
|
|
|
|
数据挖掘者 发表于 2005/6/26 9:24:51 |
|
|
|
机器学习介绍 来源:http://www.cs.utexas.edu/users/mooney/cs391L/ 编译:Sunstone Zhang (2002年于人大数据库所)
什么是学习? 1 为什么要研究学习? 2 相关领域 2 副主题 2 定义学习任务 3 设计学习系统 3 训练集(TRAINING EXPERIE
(下面还有10字) |
|
|
|
阅读全文(5497) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
| |