首页(175) 数据挖掘研究(27) 数据挖掘实践(53) 数据挖掘介绍(25) 杂谈(59) 管理页面   写新日志   退出   关于IDMer

 Blog信息
 
blog名称:IDMer (数据挖掘者)
日志总数:175
评论数量:848
留言数量:119
访问次数:2493434
建立时间:2005年6月24日

 日志更新
 

 我的相册
 

It's me!


 最新评论
 

 留言板
 

 链接
 

 联系方式

 日志搜索





 公告
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com
我的新浪微博:
@张磊IDMer
 网络日志
关于“超大容量级数据挖掘商业解决方案”
数据挖掘者 发表于 2006/4/26 22:31:08
摘自:http://www.dmresearch.net/bbs/viewthread.php?tid=4461&extra=page%3D1这个是我在数据挖掘研究院网站上的回复,转载如下: ljxgg:请大虾们赐教:拜求超大容量级数据挖掘商业解决方案!小女子现在项目进行中遇到瓶颈,信息数据量太大,只能通过商业方案来解决!望知晓哪个公司(如IBM,Sybase,Oracle之类)做过超大容量级数据挖掘解决方案,并已有成功案例的大侠们指教(如数据量达到数十TB以上)!急!在线等!拜谢!再拜谢! hammer_shi:http://www.hp.com.cn/enterprise/industry/ ljxgg:谢谢管理员hammer_shi!我点开您给的链接看了,可是看到的都不怎么合适哦!管理员大哥为什么给偶介绍HP呀?得寸进尺的问一下:“还有别的吗?”嘻嘻!dialyou:目前恐怕还没有这样的工具超过10t的数据,我想肯定是未经处理的原始数据,一般情况下,原始数据经过一些初步处理,占用磁盘的容量会大大降低,关键的问题是有多少个表,每个表有条记录,有多少字段,每个字段有多少种不同的值,他们如何组合。另外你想进行什么样的分析工作实际上互连网上的所有中文文本信息总共也不到10t,这种大规模数据处理显然不是仅仅有几个好用的工具旧可以解决的 33859007:几十T的数据的话可以选用大型的数据仓库和数据挖掘软件配合使用.现在看来几十T的数据也不怎么大了哈,呵呵francois(Sunstone.Zhang):其实我觉得ljxgg提到的几十TB数据,应该是基础数据。而在进行特定专题的挖掘时,常常只会从中抽取出少量数据,提交给挖掘工具进行挖掘。对于基础数据的ETL、存储管理以及其后的分析挖掘来说,首先要把这些数据整合存储起来,因此合理的方案应该是先搭建数据仓库。ljxgg提出的几十TB,应该指的是数据仓库的存储容量。目前全球能有效支持这样规模的数据库厂商,实际上只有NCR和IBM两家。其他的象Oracle,基本上集中在中等规模的数据库(TB以下级)。至于象Sybase、MS SQL Server等等,都是把重点放在中小企业上。可能你从各个厂商的宣传资料或网站上看到他们会说可以支持TB级数据仓库,但参看Gartner、Metagroup等第三方权威机构的评估,以及他们可以列出的Reference就会发现,对于TB级数据仓库来说,除了NCR和IBM,如果选择其它数据库产品那你就要小心了,因为它们的成功案例太少,很难说实施后的功能和性能是否能满足需要。以上是我个人的看法,可能有人会有不同意见,就需要楼主自行判断了。目前全球最大的数据仓库系统就是基于NCR的Teradata,是Walmart的数据仓库系统,容量在400TB左右。具体容量大小我已经记不太清楚了,前年还是西南贝尔的数据仓库最大(大约200多TB),后来被Walmart超过了。这两个系统用的都是Teradata。当然IBM的DB2也很强,它的MPP也能提供相当好的海量数据存储管理能力,因此一直被NCR视为最大的竞争对手。说了这么多,再回到楼主的话题:大容量级的数据挖掘。首先海量数据的存储管理已经通过强大的数据仓库系统来支持(我建议考虑NCR或IBM),然后当这些数据被很好地整合后,就要进行挖掘了。(在此插一句,一定要把数据质量管理好,包括数据的完整性、正确性、及时性、一致性等等。因为数据质量对于挖掘来说很重要)其实根本不会同时用几十TB的数据来进行某种挖掘的,这么大的数据量,任何一个挖掘工具都无法承受。我原来在SAS工作时,一位经验很丰富的同事就说过:在国内外的挖掘项目中,他从未见过某次挖掘用了10GB以上级别的数据量。一般用上百M到几GB的数据,都算是很大规模的挖掘了。而就我的经验来说,以前我在移动公司的挖掘项目中,用过100万用户的数据进行挖掘,每个用户的数据量不超过1K,这样总的数据量大约在1GB左右。因为我在这些项目里用的数据库系统是Teradata,挖掘工具是Teradata Warehouse Miner,在一些项目中也用了SAS。性能上都可以得到保证。最后,给出我的最终建议,可以考虑从以下几个方案中选择:  NCR Teradata + Teradata Warehouse Miner (或SAS)  IBM DB2 MPP + SAS如果对挖掘的性能要求低一些的话,挖掘软件还可以考虑SPSS Clementine或者KXEN。

阅读全文(4551) | 回复(1) | 编辑 | 精华
回复:关于“超大容量级数据挖掘商业解决方案”
Axl(游客)发表评论于2006/4/27 12:16:12
理论上,试图从大量数据中发现有趣的模式本身决定了需要采集多大的数据量;如果蕴藏的模式本身不具备很大的复杂性,那么并不需要很大的数据量。反过来说,如果并不知道蕴藏的模式有多复杂,那么照现在人类活动的复杂性来看,我个人认为实在没必要直接分析超过T级的数据量。甚至G级也是more than enough.关于这一点,统计学上有关于抽样的专著,若要深究,不妨翻翻。其实说到底也不过是数学上的命题而已。

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.051 second(s), page refreshed 144771211 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号