Blog信息 |
|
blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2491895 建立时间:2005年6月24日 |
我的相册 |
|

|
联系方式 |
 |
|
| |
公告 |
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com 我的新浪微博:@张磊IDMer |
网络日志 |
|
如何确定模型的准确性 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/13 13:37:17 |
|
|
|
以下帖子是我在dwway(数据仓库之路)论坛上的回贴: http://www.dwway.com/vbbs/showthread.php?p=106962#post106962
qinhui99:大家好,我在做一个响应模型的练习。我使用C5.0算法,预测用户是否对某产品响应。用训练数据得到的准确性是66.4%,用测试数据得到的准确性是74.6%。那么我这个模型的准确性应该是多少?
孤独一狼:用真实数据去验证
qinhui99:我这里的训练数据和测试数据都是真实的数据。这两个数据都是从促销活动得到的结果数据。不是很明白你说的“真实数据”的含义。能否说的更详细些?
Sunstone:实际上两个评估结果都应该作为模型的准确性,基于训练集数据进行的评估称为闭集测试(训练和测试使用相同的数据集),基于测试数据进行的评估称为开集测试(训练和测试使用的是完全不同的数据集)。因此你可以给出如下的性能评估结果:
准确性:闭集测试(66.4%),开集测试(74.6%)
此外,因为单次测试和基于单个数据集的测试很可能缺乏足够的说服力,建议你将训练集和测试集划分为多个数据集,进行多次测试,最后给出综合的评估结果。
随着时间的推进,预测模型的泛化能力和退化速度也是很值得关注的。狼兄所说的“用真实数据去验证”可能指的是你要用模型来验证它在后续营销活动中的有效性。比如你在建立模型时用的是3月份的营销数据, |
|
|
|
阅读全文(3109) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
保险业相关术语 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/8 10:47:21 |
|
|
|
最近在研究SAS保险业智能解决方案,因此搜集一些保险业相关术语解释。
网络资源: 中国保险网(http://www.rmic.cn/)
何谓第三者责任险? http://dealer.auto.263.net/20040914/00431537.html
第三者是指被保险人及其财产和保险车辆上所有人员与财产以外的他人、他物。所谓"所有人员"指车上的驾驶员和所有乘坐人员。这些人不属于第三者,但下车后除驾驶员外,均可视为第三者。私人车辆的被保险人及其家属成员都不属于第三者,至于保险车辆上的财产,是指被保险人及其驾驶员所有或其代管的财产,这些财产均不属于第三者责任。 哪些车可以保第三者责任? 第三者责任险的保险车辆种类不受限制,即各种机动车辆或专业用途车辆均可投保,但无照驾驶的汽车除外。保险车辆的使用包括车辆行驶停放的过程。碰撞责任如何处理? 保险车辆与未保险车辆相撞,致使未保险车辆上的司机、乘客伤亡或车上装载的货物损坏,属第三者赔偿责任。如果相撞
(下面还有33字) |
|
|
|
阅读全文(3487) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
关于“电信业客户流失预测” |
|
|
|
|
|
数据挖掘者 发表于 2005/7/5 17:19:06 |
|
|
|
这个帖子是我在数据挖掘研究院上的一篇回贴,原贴我也放在本文的下方:
我曾经看过所谓预警模型,只是对一些指标设定阈值,然后多个指标加权评分之后,得到总预警评分,若超过阈值,则提出预警。 问题在于:这种思路有些一刀切,指标的选取和阈值的设定都存在很大的人为性,也缺乏有效性评估,所以个人觉得没有太大的实践价值。
再谈流失预测分析,业界普遍都是采用决策树算法来建立模型。同意heilql的一些看法,包括挖掘流程的大致描述、指标选择是重点等。其实在我们以前所做的多个客户流失预测项目中,更重要的还有:明确业务问题的定义和如何运用挖掘结果来指导客户挽留活动。以下分别简要说明:
① 明确业务问题定义 我一直觉得数据挖掘就是个不断尝试的过程,没有定式。也许挖掘人员掌握了一些套路,但是在你明白要做什么以及数据的情况到底如何之前,其实你是不能给客户任何保证的。业务问题定义类似于需求分析,只有明确了业务问题才能避免多走弯路,浪费人力物力。 对于客户流失预测来说,一般要明确 |
|
|
|
阅读全文(13269) | 回复(7) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
| |