数据挖掘中易犯的十大错误及解决方法
0。缺乏数据(LackData)
对于分类问题或预估问题来说,常常缺乏准确标注的案例。
例如:
欺诈侦测(FraudDetection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。
信用评分(CreditScoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。
1。太关注训练(FocusonTraining)
IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。
实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)
例如:
癌症检测(Cancerdetection):MDAnderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。
机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。
解决方法:
解决这个问题的典型方法是重抽样(ReSampling)。重抽样技术包括:bootstrap、crossvalidation、jackknife、leaveoneout等等。
2。只依赖一项技术(RelyonOneTechnique)
IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。
当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。要想让工作尽善尽美,就需要一套完整的工具箱。
不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。
研究结果:按照《神经网络》期刊的统计,在过去3年来,只有16的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。
解决方法:
使用一系列好的工具和方法。(每种工具或方法可能最多带来510的改进)。
3。提错了问题(AsktheWrongQuestion)
IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。
a)项目的目标:一定要锁定正确的目标
例如:
欺诈侦测(关注的是正例!)(Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。
b)模型的目标:让计算机去做你希望它做的事
大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。
4。只靠数据来说话(Listen(only)totheData)
IDMer:让数据说话没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据工具就可以解决问题的话,还要人做什么呢?
4a。投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。
4b。经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。
5。使用了未来的信息(AcceptLeaksfromtheFuture)
IDMer:看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。
预报(Forecast)示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准确率达到95。但在模型中却使用了该天的利率作为输入变量。
金融业中的预报示例:使用3日的移动平均来预报,但却把移动平均的中点设在今天。
解决方法:
要仔细查看那些让结果表现得异常好的变量,这些变量有可能是不应该使用,或者不应该直接使用的。
给数据加上时间戳,避免被误用。
6。抛弃了不该忽略的案例(DiscountPeskyCases)
IDMer:到底是宁为鸡头,不为凤尾,还是大隐隐于市,小隐隐于野?不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。
异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。
研究中最让激动的话语不是啊哈!,而是这就有点奇怪了
数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。
例如:
在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销机会。
解决方法:
可视化可以帮助你分析大量的假设是否成立。
7。轻信预测(Extrapolate)
IDMer:依然是辩证法中的观点,事物都是不断发展变化的。
人们常常在经验不多的时候轻易得出一些结论。
即便发现了一些反例,人们也不太愿意放弃原先的想法。
维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。
解决方法:
进化论。没有正确的结论,只有越来越准确的结论。
8。试图回答所有问题(AnswerEveryInquiry)
IDMer:有点像我爬山时鼓励自己的一句话我不知道什么时候能登上山峰,但我知道爬一步就离终点近一步。
不知道是一种有意义的模型结果。
模型也许无法100准确回答问题,但至少可以帮我们估计出现某种结果的可能性。
9。随便地进行抽样(SampleCasually)
9a降低抽样水平。例如,MD直邮公司进行响应预测分析,但发现数据集中的不响应客户占比太高(总共一百万直邮客户,其中超过99的人未对营销做出响应)。于是建模人员做了如下抽样:把所有响应者放入样本集,然后在所有不响应者中进行系统抽样,即每隔10人抽一个放入样本集,直到样本集达到10万人。但模型居然得出如下规则:凡是居住在Ketchikan、Wrangell和WardCoveAlaska的人都会响应营销。这显然是有问题的结论。(问题就出在这种抽样方法上,因为原始数据集已经按照邮政编码排序,上面这三个地区中不响应者未能被抽取到样本集中,故此得出了这种结论)。
解决方法:喝前摇一摇!先打乱原始数据集中的顺序,从而保证抽样的随机性。
9b提高抽样水平。例如,在信用评分中,因为违约客户的占比一般都非常低,所以在建模时常常会人为调高违约客户的占比(比如把这些违约客户的权重提高5倍)。建模中发现,随着模型越来越复杂,判别违约客户的准确率也越来越高,但对正常客户的误判率也随之升高。(问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)
解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。
如何化淡妆化妆是很常见的,化妆的方法比较多,在化妆上,也是要根据自己需求的妆容进行选择,那一般化妆分为浓妆和淡妆,这些妆在化的时候,都是有着不同的方式,对如何化淡妆呢,也是很多人不太清楚……
生命不能承受之重那个情感混沌的年代,男大当婚女大当嫁,天经地义地,他们共同成立了一个家。如果,爱情是一首歌,在他们准备聆听的时候,它就已经喑哑了。如果,生活是一部书,在他们翻开书皮的时候……
长篇历史学小说只有青山不改三摆于袁府藏书楼旁大厅内的大宴已吃过一个时辰。席间许定国对高杰是曲意奉承,高杰对许定国、邓务良等的劝酒是来者不拒。见此,越其杰等人十分不安。在越其杰和袁枢一番耳语后,越其杰站起身……
美丽城市一一hr高林是一个从小地方来的人,确切的说,他来自一个小乡村。他要去个很大的地方,北京。他去那里工作,但他更觉得是去谋生。他只知道北京很大,人很多。城市让他感到陌生,未来则是一片……
大学中不会学到的种必需技能竞争如此激烈的社会现实下,仅仅懂得大学的知识是远远不够的了。下文列举了大学中不会学到的7种技能,或许它并不适合你的领域,但只要能够激起你的思考,意义就已经完全抵达。现在是……
母亲镜头下的女儿最可爱了壹身为摄影师的母亲KateParker为两个女儿8岁大的Ella和5岁的Alice,拍摄了温馨有爱的童年照片。她从美国田园派插画家NormanRockwell的作品中汲取灵感,……
销售人员如何有效赞美客户销售人员如何有效赞美客户?话说:巧妇难为无米之炊,销售人员都知道,客户资料就是我们米,所以,为了更快更多地把产品销售出去,需要学习更多的销售技巧。那么销售员如何有效的赞美……
王小波第节爱你就像爱生命原文及赏析第46节爱你就像爱生命银河,你好!看了你的信。我来回答你的问题吧!真的,也许梦是做不了一辈子,那就让它成为真的好了!我和你就要努力进取,永不休止。对事业是这样……
春季女生棒球服搭配图片棒球服就应该这么穿春季女生棒球服搭配图片近日,阚清子身穿深蓝色拉链工装连体裤内搭和一件黑白棒球服外套出现在机场。简直是超级减龄啊!其实很多明星,早就穿起了棒球服。尤其是去年秋冬时期的……
冻干粉和原液的区别羊胎素原液使用方法冻干粉和原液的区别冻干粉和原液的状态不同,吸收效果也不同。冻干粉是固态的粉末状,而原液是一种液体。冻干粉的吸收速度很快,效果也很好,原液的吸收较慢,作用效果也很缓慢。……
中学生学霸的社交障碍从成绩中寻求心理平衡这是全省最好的高中之一,每年考上清华北大的学生占全省的一半。理所当然,这里学霸云集。他们中一些人有着《生活大爆炸》中谢耳朵式的天才思维,也有普通孩子难以体会的社交障碍。他们经常……
貂绒有褶皱了怎么办如果貂绒被压出了褶皱,我们可以反过来,在貂绒的背面用熨斗熨烫,貂绒很怕热,所以一定要控制好温度,最理想的温度是510摄氏度。在放置貂绒之前,在外面要罩上一层布,晒2个小时,可以……
升职加薪轮不到自己那是因为你没有做好职业规划现在有很多刚刚步入社会的大学生,或者是刚刚找到工作的入职者,都没有为自己未来的职业生涯或者是人生有一个明确的规划,只想着走一步看一步,逃避不了的再去想办法解决,还有些人简直就是……
高考倒计时如何备战高考操作方法01:hr多看错题本:错题本大多都是自己经常出错的题目,在考前多翻阅,在高考中就会大大降低熟悉题目出错的几率。02:hr保持一定的做题节奏:早考……
怎么用橡皮泥做公主的裙子用aclasstaghrefwiki10173dI6pwVMkDAn1。html橡皮泥a做公主的裙子,简单又好看,下面就来做公主的裙子。工具材料彩泥操作方法……
怎么查充值记录《aclasstaghrefwiki10347IFvazjM2。html地下a城与勇士》是一款韩国网游公司NEOPLE开发的角色扮演2D游戏,中国则是由腾讯公司进行代理。我们在……
如何注销微信公众号注销的方法是什么工具材料智能手机一部联网电脑一台操作方法01:hr在浏览器中搜索微信公众平台,找到它们的官网点击进入开始操作。02:hr开始登陆你想要注销的微信公……
官网下载教程mysql是一款好用的办公软件,今天让小编来告诉大家如何aclasstaghrefwiki10013IF2M96O10。html安装a吧。工具材料电脑操作方法……
苹果忘了怎么办今天小编要和大家分享的是苹果id忘了怎么办,希望能够帮助到大家。操作方法01:hr首先在我们的手机桌面上找到设置并点击的,如下图所示。02:hr然后点击登陆i……
杜鹃鸟怎么繁殖后代01hr杜鹃鸟从不筑巢,不孵卵,不育雏,它们在产卵前总是先物色好其它鸟的鸟巢,一旦老鸟离巢,它就在窝里下蛋,让老鸟替它孵蛋,这样,杜鹃就完成了生儿育女的任务了。杜鹃,又名……
马桶大小型号怎么分马桶也叫坐便器,在安装的时候我们是不能按照自己喜欢去随便买一个马桶的,不然很可能买到安装不了的马桶,白跑一趟。马桶有大有小,而且不同品牌的马桶尺寸规格还不一样,这个时候我们主要……
月光下的村庄皎洁的月光静静地照耀着这个安静祥和的小村庄,然而,只有一家灯火通明,一个肥胖的身影正在踱来踱去,一边摔着身旁的东西,一边嘀咕着什么。一个月明风清的夜晚,铁蛋睡不着,偷偷溜……
小兔子我最喜欢的动物是小兔子。小兔子有白色的,灰色的,也有黑色的,它们长着两只长长的耳朵,小小的身体,短短的腿,尾巴就像个小毛球,实在太可爱了!每当它们感到难过的时候,就会动动……
令我敬佩的一个人我最敬佩的人是谁?大家一定会想,这一定是一位伟人或是家喻户晓的明星。其实,她是生活中一位平凡人物我们学校默默无闻的扫地阿姨。她一头花白的头发,因汗水两鬓湿湿的贴在脸上,看……