Blog信息 |
blog名称:宿命宽恕轮回修仙 日志总数:18 评论数量:3 留言数量:0 访问次数:115102 建立时间:2009年3月18日 |
« | October 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | |

| |
[WEKA](转)当weka遇到大数据集时 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/2 20:46:37 |
用的数据集是Reuters-21578和20个新闻组。结果光是前者,我还只是选择了其中的7个类别,最后生成的训练集的arff文件就有150MB。 我为此还换了个1G的内存。调整了JVM的大小,居然还是不行。有没有高人指点一下呢。
150M的训练集用WEKA做起来应该比较困难。我想有这么几个办法:
1 增加内存。 其实WEKA不光可以用物理内存,还可以占用虚拟内存。把JAVA的可用内存设置成2G的话,如果机器的物理内存只有1G,操作系统是会在需要时自动在硬盘上划分一块出来作为虚拟内存的。不过这时候一般会处理得比较慢,因此不推荐这个方法。
2 抽样。从训练集中随机抽取一部分数据来作训练。在二分类的时候,一般样本数量达到几千个时就能预测得比较准确了。如果几千个样本还不怎么准,那要么是所用的分类算法不适合,要么数据中的输入变量根本无法预测目标变量。 我试过了KDD 99中“kddcup.data_10_percent” 数据集,接近50万条数据,做成ARFF文件后有70多M。在Explorer中10来秒就载入了,抽取1% |
|
[JAVA](转)由MyEclipse内存不足谈谈JVM内存 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/2 20:42:54 |
原文出处: http://www.javatang.com/archives/2007/12/03/1653250.html 作者: Jet Mah from Java堂 声明: 可以非商业性任意转载, 转载时请务必以超链接形式标明文章原始出处、作者信息及此声明!
如果没有进行设置的话,在使用MyEclipse的经常出现如下图所示内存不足的提示。
提 |
|
[JAVA](转)Java虚拟机设置使用的内存[weblogic ,websphere ,jboss,eclipse] 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/2 20:42:20 |
可以给Java虚拟机设置使用的内存,但是如果你的选择不对的话,虚拟机不会补偿。可通过命令行的方式改变虚拟机使用内存的大小。如下表所示有两个参数用来设置虚拟机使用内存的大小。 参数描述 -Xms JVM初始化堆的大小 -Xmx JVM堆的最大值
这两个值的大小一般根据需要进行设置。初始化堆的大小执行了虚拟机在启动时向系统申请的内存的大小。一般而言,这个参数不重要。但是有的应用程序在大负载的情况下会急剧地占用更多的内存,此时这个参数就是显得非常重要,如果虚拟机启动时设置使用的内存比较小而在这种情况下有许多对象进行初始化,虚拟机就必须重复地增加内存来满足使用。由于这种原因,我们一般把-Xms和-Xmx设为一样大,而堆的最大值受限于系统使用的物理内存。一般使用数据量较大的应用程序会使用持久对象,内存使用有可能迅速地增长。当应用程序需要的内存超出堆的最大值时虚拟机就会提示内存溢出,并且导致应用服务崩溃。因此一般建议堆的最大值设置为可用内存的最大值的80%。 ----------------- |
|
[WEKA](转)开源机器学习:R Meets Weka 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/2 20:40:24 |
背景介绍: 1)Weka: Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/~ml/weka/)。我们这里当然要介绍的是第二种意思啦,Weka项目从1992年开始,由新西兰政府支持,现在已在机器学习领域大名鼎鼎。Weka里有非常全面的机器学习算法,包括数据预处理、分类、回归、聚类、关联规则等。Weka的图形界面对不会写程序的人来说非常方便,而且提供“KnowledgeFlow” 功能,允许将多个步骤组成一个工作流。另外,Weka也允许在命令行执行命令。 2)R R就不用我废话了吧,呵呵,越来越受欢迎的统计软件(http://www.r-project.org/)。 < |
|
[数据挖掘]优秀的开源数据挖掘工具 文章收藏
宿命宽恕轮回修仙 发表于 2009/6/2 17:33:56 |
转自http://www.w3china.org/blog/more.asp?name=DMman&id=24009和http://blogger.org.cn/blog/more.asp?name=idmer&id=41774
下文对几种流行的开源数据挖掘平台进行了介绍。如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directory上查找。
(1) R R(http://www.r-project.org)是用于统计分析和图形化的计算机语言及分析工具,为了保证性能,其核心计算模块是用C、C++和Fortran编写的。同 |
|
[WEKA]WEKA源码 原创空间
宿命宽恕轮回修仙 发表于 2009/6/2 17:28:42 |
到WEKA官网http://www.cs.waikato.ac.nz/ml/weka/上下载WEKA安装程序。
安装后,把安装目录下的weka-src.jar文件解压后就是WEKA的源文件。 |
|
[WEKA]weka学习资料 网上资源
宿命宽恕轮回修仙 发表于 2009/6/2 17:24:01 |
书籍:
《数据挖掘:实用机器学习技术》第2版
论坛:
WEKA中文论坛http://bbs.wekacn.org/index.php
电子书:
500)this.width=500" border=0>Expl |
|
[WEKA]如何将英文文本数据集转换为ARFF格式 原创空间
宿命宽恕轮回修仙 发表于 2009/6/2 17:05:24 |
若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。 TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。 TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
在转换之前,我们需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:
----------------------------------------------------------- ... | +- example | +- class1 |&n |
|
|