数据挖掘中易犯的十大错误及解决方法

菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

数据挖掘中易犯的十大错误及解决方法

　　0。缺乏数据（LackData）
　　对于分类问题或预估问题来说，常常缺乏准确标注的案例。
　　例如：
　　欺诈侦测（FraudDetection）：在上百万的交易中，可能只有屈指可数的欺诈交易，还有很多的欺诈交易没有被正确标注出来，这就需要在建模前花费大量人力来修正。
　　信用评分（CreditScoring）：需要对潜在的高风险客户进行长期跟踪（比如两年），从而积累足够的评分样本。
　　1。太关注训练（FocusonTraining）
　　IDMer：就象体育训练中越来越注重实战训练，因为单纯的封闭式训练常常会训练时状态神勇，比赛时一塌糊涂。
　　实际上，只有样本外数据上的模型评分结果才真正有用！（否则的话，直接用参照表好了！）
　　例如：
　　癌症检测（Cancerdetection）：MDAnderson的医生和研究人员（1993）使用神经网络来进行癌症检测，惊奇地发现，训练时间越长（从几天延长至数周），对训练集的性能改善非常轻微，但在测试集上的性能却明显下降。
　　机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优，这样做的结果通常会导致过度拟合（overfit）。
　　解决方法：
　　解决这个问题的典型方法是重抽样（ReSampling）。重抽样技术包括：bootstrap、crossvalidation、jackknife、leaveoneout等等。
　　2。只依赖一项技术（RelyonOneTechnique）
　　IDMer：这个错误和第10种错误有相通之处，请同时参照其解决方法。没有对比也就没有所谓的好坏，辩证法的思想在此体现无遗。
　　当小孩子手拿一把锤子时，整个世界看起来就是一枚钉子。要想让工作尽善尽美，就需要一套完整的工具箱。
　　不要简单地信赖你用单个方法分析的结果，至少要和传统方法（比如线性回归或线性判别分析）做个比较。
　　研究结果：按照《神经网络》期刊的统计，在过去3年来，只有16的文章中做到了上述两点。也就是说，在独立于训练样本之外的测试集上进行了开集测试，并与其它广泛采用的方法进行了对比。
　　解决方法：
　　使用一系列好的工具和方法。（每种工具或方法可能最多带来510的改进）。
　　3。提错了问题（AsktheWrongQuestion）
　　IDMer：一般在分类算法中都会给出分类精度作为衡量模型好坏的标准，但在实际项目中我们却几乎不看这个指标。为什么？因为那不是我们关注的目标。
　　a）项目的目标：一定要锁定正确的目标
　　例如：
　　欺诈侦测（关注的是正例！）（Shannon实验室在国际长途电话上的分析）：不要试图在一般的通话中把欺诈和非欺诈行为分类出来，重点应放在如何描述正常通话的特征，然后据此发现异常通话行为。
　　b）模型的目标：让计算机去做你希望它做的事
　　大多数研究人员会沉迷于模型的收敛性来尽量降低误差，这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务，而不是仅仅侧重模型计算上的精度。
　　4。只靠数据来说话（Listen（only）totheData）
　　IDMer：让数据说话没有错，关键是还要记得另一句话：兼听则明，偏听则暗！如果数据工具就可以解决问题的话，还要人做什么呢？
　　4a。投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。
　　4b。经过设计的实验：某些实验设计中掺杂了人为的成分，这样的实验结果也常常不可信。
　　5。使用了未来的信息（AcceptLeaksfromtheFuture）
　　IDMer：看似不可能，却是实际中很容易犯的错误，特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。
　　预报（Forecast）示例：预报芝加哥银行在某天的利率，使用神经网络建模，模型的准确率达到95。但在模型中却使用了该天的利率作为输入变量。
　　金融业中的预报示例：使用3日的移动平均来预报，但却把移动平均的中点设在今天。
　　解决方法：
　　要仔细查看那些让结果表现得异常好的变量，这些变量有可能是不应该使用，或者不应该直接使用的。
　　给数据加上时间戳，避免被误用。
　　6。抛弃了不该忽略的案例（DiscountPeskyCases）
　　IDMer：到底是宁为鸡头，不为凤尾，还是大隐隐于市，小隐隐于野？不同的人生态度可以有同样精彩的人生，不同的数据也可能蕴含同样重要的价值。
　　异常值可能会导致错误的结果（比如价格中的小数点标错了），但也可能是问题的答案（比如臭氧洞）。所以需要仔细检查这些异常。
　　研究中最让激动的话语不是啊哈！，而是这就有点奇怪了
　　数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。
　　例如：
　　在直邮营销中，在对家庭地址的合并和清洗过程中发现的数据不一致，反而可能是新的营销机会。
　　解决方法：
　　可视化可以帮助你分析大量的假设是否成立。
　　7。轻信预测（Extrapolate）
　　IDMer：依然是辩证法中的观点，事物都是不断发展变化的。
　　人们常常在经验不多的时候轻易得出一些结论。
　　即便发现了一些反例，人们也不太愿意放弃原先的想法。
　　维度咒语：在低维度上的直觉，放在高维度空间中，常常是毫无意义的。
　　解决方法：
　　进化论。没有正确的结论，只有越来越准确的结论。
　　8。试图回答所有问题（AnswerEveryInquiry）
　　IDMer：有点像我爬山时鼓励自己的一句话我不知道什么时候能登上山峰，但我知道爬一步就离终点近一步。
　　不知道是一种有意义的模型结果。
　　模型也许无法100准确回答问题，但至少可以帮我们估计出现某种结果的可能性。
　　9。随便地进行抽样（SampleCasually）
　　9a降低抽样水平。例如，MD直邮公司进行响应预测分析，但发现数据集中的不响应客户占比太高（总共一百万直邮客户，其中超过99的人未对营销做出响应）。于是建模人员做了如下抽样：把所有响应者放入样本集，然后在所有不响应者中进行系统抽样，即每隔10人抽一个放入样本集，直到样本集达到10万人。但模型居然得出如下规则：凡是居住在Ketchikan、Wrangell和WardCoveAlaska的人都会响应营销。这显然是有问题的结论。（问题就出在这种抽样方法上，因为原始数据集已经按照邮政编码排序，上面这三个地区中不响应者未能被抽取到样本集中，故此得出了这种结论）。
　　解决方法：喝前摇一摇！先打乱原始数据集中的顺序，从而保证抽样的随机性。
　　9b提高抽样水平。例如，在信用评分中，因为违约客户的占比一般都非常低，所以在建模时常常会人为调高违约客户的占比（比如把这些违约客户的权重提高5倍）。建模中发现，随着模型越来越复杂，判别违约客户的准确率也越来越高，但对正常客户的误判率也随之升高。（问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了）
　　解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。

怎么让乌龟喜欢你如果你养的宠物是一只小aclasstaghrefwiki10615ICaH9EB3。html乌龟a，那么就要用心对它好，让它喜欢你，下面就说说怎么让乌龟喜欢你。操作方法……灼热峡谷任务怎么做灼热峡谷任务流程指南灼热峡谷是游戏《魔兽世界》里的其中一个地图。在里面可以做很多任务，而且还可以获取经验装备，甚至是声望。所以在升级的过程中，这是一个必做的任务部分。接下来我们一起来看看这个地图的……微信公众号如何推广相对于推广运营者来说，微信运营有三大优势：便捷性、省时性、互动性。下面给大家说说微信公众号如何推广操作方法01：hr有高品质的文章，微信公众号的定位可以根据行业来判……安全证书已过期或还未生效解决方法打开浏览器时，有可能会出现aclasstaghrefwiki10760IF2M90S17。html安全a证书已过期。下面，我们来看看安全证书已过期或还未生效解决方法吧。操……手机的飞行模式在平时有什么作用操作方法01：hr打开飞行模式，我们的手机就不能打电话，也不能接电话了，所以当你不想他人电话打扰时，可以打开飞行模式，这时我们还可以玩手机上的游戏。02：hr当手机……网络电视怎么看电视台现在家家户户基本上都是使用的aclasstaghrefwiki10182dZ7dpBBUF5QmLXL。html网络电视a，但是很多用户不知道如何在网络电视上收看电视台的节目，……校园好伙伴转眼间，一个学期就要过去了，但说句真心话：身为初一的我们却并没有完全融入到这个气氛之中。初来乍到的我们总是认为自己是格格不入的，面对那些高年级的学长、学姐们，总是不敢直视，就好……老家的门青苔爬上了门框，门上的锁已经锈迹斑斑，木门裂开了一道道口子，昆虫早已在里面寄居，那层黑漆已经褪去，门上覆盖了一层厚厚的灰尘。老家的门，我已多年没有跨进。在我的记忆中，老家……回老家一年有四个季节，我最喜欢的季节是夏天，特别是老家的夏天。我的老家在上坝，去老家的山路很窄，在夏天的时候，山路两旁的草木长得很茂盛。在山路上有一座拱桥，桥下是清澈见底的小溪……那天我毕业了那天，我们参加了毕业典礼。这确定是我在实验的最后一次集会了。台上进行了颁奖，校长讲了话，老师发了言此时正轮到同学在毕业演讲。望着这些熟悉得不能再熟悉的事物，我却有些……我是一只小袋鼠大家好！我是一只可爱的、活泼的小袋鼠，我住在森林里，我的妈妈有一个大口袋。我最想和妈妈一起比赛，谁跳得更快。我自信满满地上赛场。我看了看妈妈长长的腿，不禁打了一个哆……走遍天下书为侣一本好书就像一颗结满知识的果树。多读一些好书，就仿佛在知识的果园里畅游，品味。如果要周游世界，如果只能带一种东西，我会毫不犹豫的选择书。莎士比亚曾经说过，书籍是全人类的营……

<<<<<<－>>>>>>

微小说曾经我说过你就是我的命我又怎么会1、他：亲爱的，我们分手好吗她的手停留在鼠标上，眼睛盯着屏幕看着什么，随即转过头笑着对他说：明天，明天我们再分手好吗。他顿了顿，还是答应了。她走过去紧紧的抱住……与众不同的说说和别人与众不同的说说大全一、现在，我再也不会任性的让任何人带我走。我学会了，自己走。二、我爱你，这句话我已经说了无数次，可是我说的越多就越不明白它的含义。三、虚荣心，甚至其它。四、他……夺宝录第二十八章降妖伏魔一洛城细想了一遍，对周围之人解释道：来者八人当中，四位姑娘的武功虽是上乘，也甚是轻巧夺命，只是这般较量中自是不敢用暗器，假如在搏斗中敌不住这‘大象’的一招半式，恐怕后果不堪设想。……愉快的情绪需要自己培养每天保持好心情是每个人的愿望，愉快稳定的情绪是身心健康的重要心理条件。抑郁不安的情绪有可能会导致身体疾病。因此，培养良好助情绪对增强身心健康、防治疾病是很重要的。一、乐观……伍绮诗无声告白中所有的人物形象分析我们终此一生，就是要摆脱他人的期待，找到真正的自己。纵观整个故事我们可以发现，其实有很多事情家人之间都是可以相互解释、相互理解的。偏偏这个家里的每一个人都把它们当作是不可……骚情上孙家屯是个北方依山傍水的小村，既有过去的古朴又有现代的气息，改革开放以后，这里变得更美了，村村相通，红砖铺路。落日的余辉，婀娜的垂柳，更点缀出小村的惬意与幽美。时近七月，……华胥引宋凝篇随笔宋凝，喜欢这个女子，却又很可怜这个女子，喜欢她的真，她的坚强，她的勇敢，却也可怜她的真，她的坚强，她的勇敢。当那个男人挑起骁勇善战的她的头盔时，她就被彻底打败了，并不是只败在战……往年回顾每个新年刚开始时，我都喜欢花上大概一小时，用日记方式对过去一年进行回顾。我会审视生活里的每个领域，并为它写上一两段话。所写内容包括自己做对了什么事情，做错了什么事情，随后一年又……撩妹指数暴涨小绵羊张艺兴发型张艺兴发型小卷烫发设计的这一款短发可显张艺兴小绵羊帅气啦，一身白衣暖男翩翩，超惹人喜爱。张艺兴发型亚麻色波波头设计，将头发打造柔顺感，不仅可以倍添清爽感，看起……治愈系旅行温暖的旅行日记长洲岛山脚即为海。在海边的岩石上玩一会儿。（香港长洲岛，2012年5月1日）继续上山，来到一个很高的悬崖。大家排排队，晒脚丫。（香港长洲岛，2012年5月1日）正前方就是……川江女儿红第二十四回李毛牛破案占花魁众乡邻坦诚反第二十四回李毛牛破案占花魁众乡邻坦诚反遭整上回说到李毛牛缠住潘麒要去四牌坊破狗案，潘麒推脱不掉，只好领他去见大舅父屈长鑫，让他作决定。屈长鑫刚开始不大同意，后来又一想：要……怎样控制自己的情绪个建议让你不再情绪化人生要做到宠辱不惊，看淡一切，首先要做的就是正确对待自己的情绪，控制情绪，不被情绪所左右。但是我们要怎样控制自己的情绪呢？当我们有了情绪的时候应该怎么去调节情绪呢？我们都……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网