本站首页    管理页面    写新日志    退出



公告


 求真务实打基础,
 宁缺毋滥读好书。

数据挖掘青年(DMman)


我的分类(专题)

日志更新
问君能有几多愁,恰似一群太监上青楼
我和僵尸有个约会:灵异世界或真实存在?
赤壁(下)观后小感:雷人
英科学家:酒精和烟草的危害大于大麻和摇头
只有社会主义才能拯救世界(由金融危机引发
求职心得(非名牌院校 硕士 计算机)
省外就业协议录入
数据挖掘方面的资源、期刊、会议的网址集合
面试心得(摘)
为学
EI收录中国期刊-核心(2008-5)
混沌理论:随机世界的建模
分子计算机已经问世,纳米计算机指日可待?
绝对好用免费的网络电话
NLP:基于机器学习的人类思想及行为建模
Weka中用于组合多个模型的的装袋、提升
数据挖掘在企业中应用的四种途径
(转)几点做人做事的建议
大学计算机软件专业生应该学什么(转)
一个程序员对学弟学妹建议(转)

最新评论

留言板

链接

Blog信息
blog名称:DMman(数据挖掘青年)
日志总数:102
评论数量:564
留言数量:57
访问次数:1756875
建立时间:2007年4月9日




[数据挖掘]数据挖掘新手常见疑问解答(1) 
网上资源

数据挖掘青年 发表于 2007/7/8 21:37:10

说明:这些问题以及他们的解答来自数据挖掘者的博客http://blogger.org.cn/blog/blog.asp?name=idmer,由DMman整理,日期截止到2007-6-20。挑选了其中比较有实际应用意义的若干。涉及到数据挖掘的前景、学习数据挖掘需要学什么、如何学习;数据挖掘的算法、应用等技术问题....希望大家能有所得。   请教:高水平论文与英文的重要性 数据挖掘青年发表留言于2007-6-20 14:46:11 1 现在博硕士论文大都肤浅而处于总结性质,有东拼西凑之嫌。请先生推荐点高水平的数据挖掘方面的论文的来源。英文的也可以(估计好的都是英文的)。 2 关于数据挖掘工作中英语的重要性。现在英语方面,阅读能力还可以,写也勉强,听说就过不去了。请先生谈谈数据挖掘工作过程中要求英语的使用场所。当然英语肯定是水平越高越好了,但至少需要达到什么程度才可以呢?   以下为blog主人的回复: 1.我以前经常用以下的论文检索站点(前两个,特别是第二个):注意要检索经典论文,需要看它被引用的情况,即citation。 http://dblp.uni-trier.de/ http://citeseer.ist.psu.edu/cs http://scholar.google.com/schhp?hl=zh-CN   2.其实大家学英语的情况都一样,读写强而听说能力差。我觉得要达到这样的程度会有利于自己的发展:可以顺利地和国外的同行交流,不一定要非常流利,但可以听懂,并且能将自己的意思表达出来。 用数据挖掘做社会研究 xiaomissy(游客)发表留言于2007-6-19 20:02:24 你好,偶然之间浏览到这个博客,非常高兴,因为我现在正好需要了解数据挖掘。我打算做网络的传播学研究,希望能从新的研究方法进行突破。但由于是文科出身,对数据挖掘比较陌生。请问什么样的软件可以帮我:1)快速、自动地下载所需要的网络上的信息; 2)处理和统计这些信息? 没有统计软件,我自己不能进行什么复杂的计算的。也许我的问题比较幼稚,不过请对我这个新手加外行进行指导。谢谢了。 以下为blog主人的回复: 呵呵,有这样的软件吗?如果有人知道,麻烦也介绍给我。不好意思,开个玩笑。;) 不过坦率地说,可能你的希望要落空了,要达到你的期望,我觉得去学习相应的软件工具,甚至去学会编程,应该是不可避免的。也许你可以找个计算机专业的同学或朋友一起来做这方面的研究。 高飞(游客)发表留言于2007-6-9 17:06:34 我是铁通的,因为在市场部,很想问一下有没有对固话用户一个数据分析的指标体系,即那哪些指标对市场经营分析是有用的, 以下为blog主人的回复: 不知道你想了解的是对于整个企业的KPI呢?还是在市场经营分析中常见分析主题(比如长话流失、交叉销售等)中用到的主要变量? 就电信行业来说,很多BI厂商都有行业解决方案,其中就包含了以上两方面的内容。当然在具体的项目实施中,还会进一步根据企业的实际情况进行调整和定制。 电信行业已经是经营分析系统应用得很广泛的行业了。国外有很多的参考案例,国内象中国移动、中国联通、中国电信也都上马了经营分析系统、数据仓库、营销再造等项目。对于铁通而言,这些项目都是很好的参考。当然,从关注固话的角度看,电信的营销再造(MR,即Marketing Rebuild)应该是和你们需求最接近的。 请教挖掘软件的使用 数据挖掘青年发表留言于2007-6-3 21:58:32 请教: 1 为甲方做的针对行业的数据挖掘中,如果通过SAS等通用的软件,如何体现行业不同、部门不同的特色要求?为他建立预测模型的过程中会对SAS的功能进行插件式的扩展吗,还是SAS本身已经足够建立特定的模型?  也就是说所谓的量身定制,也就是使用同一个软件建立不同的模型,开发过程中不涉及软件的改造?2 是否数据挖掘人员不必是一个程序员?日常的工作已经很少涉及编程? 以下为blog主人的回复: 1.SAS的Enterprise Miner是通用型的数据挖掘软件,所以要满足客户的特定分析需求,常常会采取两种方法实现:一是做项目,通过项目团队的开发和实施,来建立客户所需的应用;另一种是采用SAS的行业解决方案(是SAS通过多年来对行业需求及解决方案的总结,形成的完整的solution),然后进行客户化定制。大多数情况下,不需要对SAS的功能进行扩展,而是用SAS的软件就可以解决业务问题。所以我们通常做的项目不是软件开发,而是项目实施。 2.如果单纯从建立挖掘模型的角度来说,挖掘人员的确不必是程序员,只要应用合适的挖掘算法,基于分析数据进行建模,并对模型进行调优就可以了。但实际上,挖掘人员并不只做这些,更多的时候是做数据准备和数据探索,其中就可能需要进行编程,当然这些程序通常用于数据处理、模型结果的发布等等。就我个人的经验和了解,数据准备常常占一个数据挖掘项目工作量的60%~70%左右。 数据挖掘中银行方面的应用? candy(游客)发表留言于2007-5-28 8:37:10 您好:  有个问题向您咨询下。我正在做数据挖掘中的CRM的应用。我在网上搜索到了一个Finacial 方面的数据,无非是一些帐户的转帐等信息,我就是有点搞不清楚我需要从这方面得到些什么有用的信息。我初步打算做一个简易的银行交易系统,利用那些数据,然后决策树以及K均值算法来分析。可是我们导师老是在我的创新点在哪里。其实国内关于这个问题的研究已经很多,我实在不知道怎么办了,希望你能够指导我下:) 以下为blog主人的回复: 呵呵,“创新”是个很尖锐的问题。以前我帮导师审论文时,给论文评分包括几个要素,分别是理论基础是否坚实、研究问题的重要性、研究成果的创新性等。 所谓创新,就是你解决问题的方法是否和其他人的解决方法有所不同,而这种不同又是否更有利于解决问题。因此,要发现创新点,实际上需要充分的准备和深入的研究。 ①充分的准备:既然创新是找出解决问题的更好方法,那么首先你就要发现问题,而且要发现有价值的问题。当找到这种问题时,再去查找有没有人提出了解决这个问题的方法,他们的方法是怎样的,还存在什么不足之处。这个阶段需要做大量的调查搜集的工作,也是做研究的准备阶段,常常需要通读相关研究领域的经典文献以及最新进展,写读书笔记予以总结。 ②深入的研究:当你发现了值得研究的问题,并且知道在这个问题上还没有很好的解决方法时,你就有了创新的机会。找出现有解决方法的不足之处,提出自己的解决思路,并予以验证,通过试验或者推理证明你的方法是有效的,创新点也就产生了。说起来容易做起来难,就象酝酿一个新发明一样,常常会需要大量的试验和周密的思考,而且也有可能忙了很久而一无所获。 希望说到这里没有让你心生惧怕,但我见过的一些认真做研究的人的确投入了很多的时间和精力才有所成就。当然对于国内的研究生来说,我倒是觉得在硕士阶段去追求显著的创新是不切实际的(个人的一管之见),其实把第一步做好已经不错了。如果没有做好第一步,打好基础,就急于找些创新点,那么这些所谓的创新点常常是毫无意义的,写出来的论文最终避免不了被扔到垃圾桶的命运(我以前写的一些论文也是如此)。大家常常说国内的研究论文质量很差,很大程度上也是源于我们现在的教育制度,要求研究生毕业前必须在SCI、EI或核心期刊上发表若干篇论文,重量而不重质,造就了现在的核心期刊完全变成了完成毕业任务的自留地。 话题扯远了,回到你关心的问题-如何找创新点。必要的文献阅读是不可缺的,了解研究现状和背景,才可能发现创新点。如果你想这个阶段快一些的话,也有些捷径,比如你可以到一些研究单位或学者的站点上,察看他们目前的研究动态,一般来说他们正在研究的内容常常是目前还未解决的,这样你可以尽快找到创新点的主攻方向。 很遗憾我无法给你指出具体的方向,因为毕业已经好几年了,工作内容也与研究没什么关系。如果读到我这篇回复的朋友中,和candy有类似的研究方向,欢迎给candy提些建议。 anthea(游客)发表留言于2007-5-23 21:12:58 你好,想请教一下,我想了解数据挖掘的一些基本知识,看什么教材比较好(中外文均可),谢谢! 以下为blog主人的回复: 先看《数据挖掘:概念与技术》吧。 如何编写分类算法 wistaria(游客)发表留言于2007-5-22 11:50:43 我要自己写一个分类算法,可是我没有搞清楚那个buildClassifier和ClassifyInstance是如何调用的。另外问一下哪个分类算法是基于关联规则的?多谢了。 以下为blog主人的回复: 关于buildClassifier等的调用,建议你可以到Weka中文论坛(http://bbs.wekacn.org/)问一下。 基于关联规则的分类算法,如CMAR等,你可以通过Google搜索诸如“Classification Based on Multiple Class-Association Rules”即可。 紫菱(游客)发表留言于2007-4-5 10:28:20 老师对这方面也不是很了解,就是给我这个方向的,然后让我自己查文献,自己确定做什么,以前没有接触过这些,我觉得挺难的,自己也根本不知道做什么 以下为blog主人的回复: 这种情况很常见,而且我觉得这时更是一个锻炼和培养自己能力的好机会。就我个人的经历来说,读书的不同阶段都是培养自己不同能力的过程: 读本科时是打基础,掌握相关学科专业的最基本知识,这时是老师告诉自己要做什么以及教会自己怎么做,然后自己把它做出来; 读硕士时则强化了解决问题的能力,导师告诉我要做什么,而我则需要找出方法来把它做出来; 读博士时最主要的是培养自己发现问题的能力,发现研究领域内值得研究的而且尚未解决的问题,然后再设法去解决它。这时你会发现,其实你想到的问题,常常已经有人想到了;你想到的一些解决方法,也有国内外的同行已经做过尝试。这个阶段常常是让人有些气馁,因为感觉不知该做什么,而发现问题就是这个阶段最重要的能力培养。 当然,不同的人会在不同的阶段培养这些能力,有的朋友聪明而且勤奋,可能会很快跨越这三个阶段,而有的人则可能需要很长的时间。 就你的问题,其实是导师已经基于他对这个研究领域的理解,给你指了一个方向。这个方向或许有意义,或许价值不大,其实对你来说不是最重要的问题。我觉得可能你要做的是先去收集这方面的文献资料,了解该方向目前的研究进展,掌握目前的解决方法,然后在适当地深入研究部分的问题并解决。 紫菱(游客)发表留言于2007-4-2 16:19:29 您好!我是一名在校研究生,我现在已经开题,因为题目是老师给选的,所以在开题之前对数据挖掘的东西一点也不了解,现在只是知道一些皮毛。现在有许多问题自己都弄不明白。特来请教。 我做的是油田开发数据挖掘,用VC++编程,老师让用ArcGIS平台,可我现在也搞不懂它们之间有什么联系,能否指点指点。 谢谢! 以下为blog主人的回复: 我对ArcGIS也是只闻其名,只知道它是类似MapInfo的地理信息系统平台。莫非你们老师是希望将油田的相关数据标注在不同的图层之上,然后使用数据挖掘算法来对这些数据进行处理,最后再通过ArcGIS予以展示(例如对油田产油潜力用不同颜色来标注)? 数据挖掘青年 (游客)发表留言于2007-3-28 18:05:28 您好,谢谢提供开源学习网址! 我是一名非名牌大学的研一学生,专业方向号称数据库,但只是服从导师安排做些小或中的项目(甚至根本用不到数据库,更不用说数据挖掘),没有实质的理论性学习。 1数据挖掘人员从事的工作内容 是不是开发数据挖掘平台、为别的企业单位量身制作DM、DW系统?除了这些还能有些什么? 2读博深造的必要性现在只是无指导的自学状态,能否在硕士毕业后胜任数据挖掘方面的工作呢?考取名校的博士进一步深入学习的必要性大不大? 3自学时的大方向文本、Web等,读博时肯定就某种具体方向深入研究,现在是否应该也自己重点专注于一种方向,而不是仅泛泛的熟悉各个方面? 以下为blog主人的回复: 1.数据挖掘人员从事的工作和你所说的差不多,我认识的一些朋友大多在IT公司,为甲方实施DM、DW和BI等项目;还有一些是在甲方做分析人员,利用所掌握的数据挖掘知识来解决一些业务问题。 2.就以上的工作内容来说,我觉得硕士已经足以胜任,当然最重要的不是学位,而是运用你学到的知识来解决问题的能力。如果希望在理论研究上进一步发展,读博也不错,但发展方向会有所不同。 3.在硕士阶段,我觉得还是全面了解会更好一些。当然,因为数据挖掘涉及的内容较多,还是应该在一些方面有所侧重,比如那些得到广泛应用的算法及其应用上,包括决策树、聚类、回归、神经网络等等。这样即便你以后不去读博,对找工作也会有所帮助。 数据挖掘青年 (游客)发表留言于2007-3-26 10:46:03 请问:现在数据挖掘开发主流平台和编程语言。那些更有优势呢?现在大都用什么呢 谢谢 以下为blog主人的回复: 现在一般应该是用Java开发的比较多,据我所知的,SAS Enterprise Miner客户端是用Java开发,开源的数据挖掘工具Weka也是用Java开发的。当然其后台服务器端的软件有部分可能会是C开发的,主要是出于性能的考虑。 如果你对数据挖掘平台开发有兴趣的话,建议你去开源代码网站SourceForge(http://sourceforge.net/)看看,可以找到相应的源代码,也可以参加到他们的开发团队中,共同开发。 


阅读全文(7441) | 回复(4) | 编辑 | 精华
 


回复:数据挖掘新手常见疑问解答(1)
网上资源

初学者(游客)发表评论于2010/5/3 9:45:54

您好,我要用到超市数据库做关联规则分析,请问,到那里能下载到超市购物篮数据库呢?


个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


请问用数据挖掘解决窄告问题
网上资源

数据挖掘新手(游客)发表评论于2007/8/13 8:24:06

你好!     想请教一个问题:用数据挖掘或其他方式设计一个自动的窄告解决模式(已知库中存在很多不同类别的广告,数据库中有着客户网站的资料如何把这么多不同类别的广告再处理,用窄告的方式投给各个客户网站,例如:有10家网站,每个网站有几个网页上的广告位,如何用算法实现广告派发网站的最优化)     可以简略地讲下思路吗,谢谢!! 以下为blog主人的回复:  我觉得这类问题是基于内容来区分的,像文本挖掘与模式分类。说简单了就是按照广告关键字和客户网站关键字的匹配相关度来区分吧

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


回复:数据挖掘新手常见疑问解答(1)
网上资源

真不准发表评论于2007/7/9 11:05:40

以下引用真不准在2007-7-8 21:51:00的评论: 不错啊,以前读研的时候,如果被你这一忽悠说不定也成了挖掘青年了。结果自己还是成了数据安全青年,哈哈~~当然工具是一样的,JAVA。当然没有开源的东东论文是炮不出来的。。 以下为blog主人的回复:   哈哈,老兄的速度真快啊,小弟还没捣鼓完您就留言了~~   小弟资历浅薄,以后一定多多向老兄学习,早日成为IT界成功人士! 我是教育界搞IT的。在教育界我的IT是一流的,在IT界我的教育是一流的,嘿嘿嘿~~~所以总体来说还没有成功  

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


回复:数据挖掘新手常见疑问解答(1)
网上资源

真不准发表评论于2007/7/8 21:51:00

不错啊,以前读研的时候,如果被你这一忽悠说不定也成了挖掘青年了。结果自己还是成了数据安全青年,哈哈~~当然工具是一样的,JAVA。当然没有开源的东东论文是炮不出来的。。 以下为blog主人的回复:   哈哈,老兄的速度真快啊,小弟还没捣鼓完您就留言了~~   小弟资历浅薄,以后一定多多向老兄学习,早日成为IT界成功人士!

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.047 second(s), page refreshed 144770467 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号