六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

梯度增强机器在机器学习中的应用

  【摘要】梯度增强机器并不是独立的某种技术,而是一系列强大的机器学习技术的集合,它在广泛的实际应用中取得了相当大的成功。它们是高度可定制的,可以满足特殊需求的应用,就像是学会了尊重和适应不同的损失函数。本文介绍了梯度增强方法的入门教程,重点介绍了建模的机器学习方面。
  【关键词】梯度增强机器(GBM);机器;应用
  一、研究背景
  梯度增强器(GBM)实际上是从Boosting算法发展演化而来,Boosting算法其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weaklearner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。
  训练集中一共有n个点,我们可以为里面的每一个点赋上一个权重Wi(0lt;ilt;n),表示这个点的重要程度,通过依次训练模型的过程,我们对点的权重进行修正,如果分类正确了,权重降低,如果分类错了,则权重提高,初始的时候,权重都是一样的。上图中绿色的线就是表示依次训练模型,可以想象得到,程序越往后执行,训练出的模型就越会在意那些容易分錯(权重高)的点。当全部的程序执行完后,会得到M个模型,分别对应上图的y1(x)yM(x),通过加权的方式组合成一个最终的模型YM(x)。
  我觉得Boosting更像是一个人学习的过程,开始学一样东西的时候,会去做一些习题,但是常常连一些简单的题目都会弄错,但是越到后面,简单的题目已经难不倒他了,就会去做更复杂的题目,等到他做了很多的题目后,不管是难题还是简单的题都可以解决掉了。
  GradientBoosting方法:
  其实Boosting更像是一种思想,GradientBoosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。这句话有一点拗口,损失函数(lossfunction)描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错(其实这里有一个方差、偏差均衡的问题,但是这里就假设损失函数越大,模型越容易出错)。如果我们的模型能够让损失函数持续的下降,则说明我们的模型在不停的改进,而最好的方式就是让损失函数在其梯度(Gradient)的方向上下降。
  如果我们考虑与早期发展的联系,就会得出众所周知的级联相关神经网络可以被认为是算法中定义的特殊类型的梯度增强模型。由于每个神经元的输入侧权重在添加到网络之后变得固定,所以整个模型可以被认为是GBM,其中基础学习者模型只是一个神经元,损失函数是标准平方误差。这个算法也最大化了整个网络的误差与新创建的神经元之间的相关性,而且比较明显。
  二、梯度增强器在决策树中的应用
  一种计算可行的捕获相互作用的方式。GBM模型中的变量基于使用决策树模型。虽然几个解释变量之间的相互作用会消除加性模型的可解释性,但这不能被认为是一个显着的缺点,因为还有几种用于基于树的GBM解释的工具。
  决策树背后的想法是分配空间,通过树形输入变量到均匀的矩形区域规则制度。每个树分裂对应于ifthen规则一些输入变量。这种结构的决策树自然而然编码和模拟预测变量之间的相互作用,ABLES。这些树通常用数字参数化分裂,或等效地相互作用深度。它也是可能的,可以将其中一个变量拆分成特定的几倍。
  只有一个分裂的决策树(即具有两个终端节点的树)的特殊情况称为树桩。因此,如果想要使用树型基础学习者来拟合一个加法模型,那么可以使用树状树来做到这一点。在许多实际应用中,小树和树桩提供了相当准确的结果(Wenxin,2002)。此外,有很多证据表明,即使是具有丰富的树结构(相互作用深度gt;20)的复杂模型几乎不会对紧凑的树(相互作用)提供任何好处。
  决策树的一个重要特征是,通过设计,单个决策树总是以常量值推断函数。这意味着,即使像一个非零角度的直线的简单函数也不能用单个决策树正确地近似。
  三、梯度增强器的模型泛化能力
  从数据建立机器学习模型的最重要的关注是产生的模型的泛化能力。如果学习算法不适用,该模型可以轻松地过载数据。这意味着它会预测训练数据比输入和响应变量之间的功能依赖性。这些关切显然是相同的GBM。很容易想像一个情况,即新的基础学习者被添加到合奏,直到数据被完全过度使用。使用不同类型的基础学习者可能适应GBM具有非常不同的损失功能。
  为GBM引入的最简单的正则化程序是二次抽样。子采样程序已经显示提高模型的泛化属性,同时减少所需的计算量。这种方法背后的想法是引入一些随机变量进入拟合程序。仅在每次学习迭代时训练数据的随机部分用于适应充足的基础学习者。训练数据通常是采样的替换,但是,替换抽样,就像它做的一样引导,是另一种可能的设计选择。子采样过程需要一个称为的参数袋子分数。袋子分数是不大于正值一个,其规定了在每个iteraglue。例如,袋0。1对应于采样和使用每次迭代只有10的数据。另一个有用的属性的抽样是自然地适应了GBM学习程序到大数据集时没有理由使用全部一次潜在的巨大数据量。当数据量,由数据量测量N点不是实际值得关注的,设置默认值bag0。5给出了许多实际任务的合理结果。如果一个最佳的袋子部分是感兴趣的,可以简单的估计它通过比较不同参数下的预测性能值。
  在GBM的背景下,收缩用于减少或缩小每个额外安装的基础学习者的影响。它减少增量步长的大小,从而惩罚每次连续迭代的重要性。这种技术是通过采取改进模型更好许多小步骤比采取较少的大步骤。如果其中之一增强迭代证明是错误的,它的负面影响可以在随后的步骤中轻松校正。通过收缩的最简单的正规化形式是直接比例收缩。在这种情况下,收缩的影响直接定义为参数(0,1),正则化应用于最终梯度提升算法的一步。
  四、梯度增强器的缺点
  梯度增压机是一种强大的方法,可以有效捕获复杂的非线性函数依赖性。这个模型系列在各种各样的显示器上取得了相当大的实际应用。此外,GBM非常灵活,可以轻松地根据不同的实际需要进行定制。然而,所有这些结果和好处并不是免费的。虽然GBM可以被认为是一种方法论框架比一个特定的方法,他们还有几个缺点:
  GBM出现的最明显的问题是存储预测模型的成本取决于用于学习的升压迭代次数。正如我们在正则化部分中讨论的,为了减少过拟合的影响,我们要寻求最优迭代次数对于合适的收缩参数可以相当大。在一些精确密集的应用程序(如入侵检测系统)中,所需的迭代次数可以很容易地达到范围数万。处理这种大规模模型需要存储每个适合的基础学习者的所有参数。
  GBM的另一个问题自然来自于高内存消耗是评估速度。使用拟合GBM模型获得预测,一个必须评估所有合奏中的基础学习者。尽管每个人都很简单的基础学习者,当合奏相当大时,以快速的速度获得预测可能变得耗时。因此,在密集的在线任务中使用GBM最多可能要求从业者接受这种权衡模型复杂性和所需数量的函数评估每个时间间隔。然而,当GBM合奏是已经学会了,可以充分利用并行化获得预测。尽管功能评估的并行化,学习过程本质上是顺序的,并且通过设计并行化存在问题。
  目前,GBM的另一个缺点是没有快速有效的模式和执行顺利持续的基础学习者捕获相互作用。我们从应用实例可以看出,可以在特定的预测模型中发挥至关重要的作用设计。然而,只有决策树才能有效地捕获非在合理计算中,变量之间的微不足道的相互作用时间。值得注意的是,基础学习者可能会忽略这个问题,但是这种算法目前在实践中并没有被使用GBM模型设计。

大学应届毕业生自我评价前言:大学应届毕业生自我评价为好范文网的会员投稿推荐,但愿对你的学习工作带来帮助。不要疏忽任何一个可以助人的机会,学习对每一个人热情以待,学习把每一件事做到完善,学习对每……汽车专业大学毕业生自我鉴定精选多篇第一篇:汽车专业大学毕业生自我鉴定汽车专业大学毕业生自我鉴定我叫郝华思是河北交通职业技术学院汽车技术服务于营销专业的应届毕业生。通过三年的学习和生活,并参加了……大学生生活好习惯生活习惯代表着个人的生活方式。良好的生活习惯不仅能促进个人的身心健康,而且也能对人的未来发展有间接的作用。让我们一起来关注健康的生活习惯吧!希望大家一起来分享健康的快乐。……李剑剪出多彩人生我感觉人生就像翻山,没有哪条路是平坦的。留着短发的李剑呵呵笑着,看起来像个刚出校园的学生。这个1985年出生的姑娘,在很多人眼里是成功和幸运的:大学毕业后开始创业,短短三年已拥……员工转正申请精选多篇第一篇:公司员工转正申请公司员工转正申请公司员工转正申请尊敬的领导:我叫xx,于xx年x月x日进入公司,根据公司的需要,目前担任装载机操作一职,负责沥青站搅拌……中央党校教授周天勇天猫双奇迹基于社会化大协作2020年中国全面建成小康社会,需要攻坚的是农民、农业和农村发展的不平衡,是完成农村贫困人口的脱贫致富。振兴农村、发展农业、富裕农民方面,分散的农民小生产与全国分散消费者间信息……老干妈出圈记国货变潮牌背后的逻辑编者按:本文来自微信公众号中欧商业评论(ID:ceibscbr),作者:施杨,36氪经授权发布。过去的一年,是老干妈的水逆之年。作为佐餐调味品行业的龙头老大与粉丝心……必读交易员一周精选文章1hr我遇到过很多交易者交易了十几年都没能走出起起落落的低潮期,这其实很正常,这个市场最终能悟到道的人永远是少数。要想摆脱起起落落的情形,就是需要找到适合自己性格(也就是……鬼谷子阴符七术分威篇教你如何成为一位【鬼谷子原文】分威者,神之覆也。故静固志意,神归其舍,则威覆盛矣。威覆盛,则内实坚;内实坚,则莫当。莫当则能以分人之威而动其势,如其天。【鬼谷子译文】所谓分威,就是当形势……奇案背后的秘密一、神仙出手清朝乾隆年间,河北清河有个县令叫司马云,为官清廉,不会拍上司的马屁,上任五年仍是个七品芝麻官。眼瞅着同僚都升官发财了,司马云不由得整天长吁短叹。这天,他……皇帝做梦古代人做梦往往让人占卜一下吉凶祸福,以便趋吉避凶。普通人占梦,一般不会有多大的举动。而封建帝王们的梦却不同了,他们有时趋吉避凶的举动令人瞠目结舌,时常还会闹出让人啼笑皆非的笑话……年轻人求职面试大忌一忌张口问钱。很多求职者一开口就先问多少钱,殊不知这是求职最大忌,一下子就降低了自己档次,只有工地的农民工才会这样做。谈钱是最后环节,企业要是觉得你合适,一定会与你谈待遇。不合……
逆转白发这个方子为啥百用百灵把玄机告对很多年轻人来说,早生白发是一件令人苦恼的事情。现在,许多30多岁的人就开始两鬓斑白,还有不少人没到50岁,就已经银发苍苍。对此我们有没有办法将白发逆转呢?为了实现此目的……当下流行的酸奶粽子好消化并不代表助消化白白嫩嫩的糯米粽子,浇上一勺酸奶实在是解暑消夏之佳品。营养专家认为,酸奶与粽子同食,不但口味更佳,而且还可以减轻肠胃负担,消除因多吃粽子引发的消化不良、胃胀等。加了酸奶的粽子真……中老年健身分三个时段进行目录:第一章:中老年健身分三个时段进行第二章:3种运动防止中年发福第三章:防止腰椎损伤要宁跪勿弯人到老年由于身体机能的下降,容易患各种疾病。因此,日常生……阳台洗衣机插座高度对于小户型的家庭来说,时常要把洗衣机放在阳台,这样可以为房间省出很大的空间。然而不得不说的是,我们使用洗衣机肯定离不开要用到电源,那么,阳台洗衣机插座高度呢?常用洗衣机如何选择……小区树木修剪的好处是什么小区里有不少树木随着时间增长已经严重影响住家的采光,大白天都要开灯,因此很多居民强烈建议有关部门定期修剪小区内树木,下面本站小编就给大家介绍下小区树木修剪的好处是什么。小……电力安全帽的佩戴标准安全帽违规使用在生产作业中比较普遍,而这种管理方面的缺失使安全帽未能发挥其应有的防护作用。那么,电力安全帽的佩戴标准是什么那?就让本站的小编和你一起去了解一下吧!电力安全……备孕需要查抗体吗我们知道,宝宝的发育从精子和卵子的结合开始,而顺利受精的关键就是男女双方在受孕前有健康的心理和生理准备。那么,备孕需要查抗体吗?本站这就给您介绍一些相关的知识。备孕是需要……水稻稻纵卷叶螟怎么防治色浓宽大叶片被作成1316公分长的纵条状虫苞,由透明的虫丝缠绕,虫苞两端开口,苞内有与叶脉平行纵向白条斑,湿润粪便较多,苞内均有一头幼虫,此为三龄稻纵卷叶螟幼虫所害,那么如何防……滑板轮子轴承怎么装滑板运动以滑行为特色,崇尚自由的运动方式,体验与创造超重力的感受,给滑者带来成功和创造的喜悦。让许多年轻人非常的喜爱,但是滑板用久还是需要保养得,比如滑板磨砂清洁、滑板轴承保养……储奶瓶可以冷藏多久储奶瓶的主要作用是储存母乳,应对哺乳期奶水不足或因上班无法亲喂等情况。除此以外,一个储奶瓶还可以满足多种需求。根据宝宝不同年龄段的需要,可以变换为奶瓶、饮水瓶等。那么,储奶瓶可……婴儿内衣如何选购宝宝内衣直接与他们那娇嫩的肌肤接触,因而无论是从选购上还是洗涤上来说都特别重要。要想呵护好宝宝就要从细节着手了,那么,婴儿内衣如何选购呢?就让本站的小编和你一起去了解一下吧!……带孩子快乐用餐妈妈们需怎么做才好带孩子外出就餐并不一定像你想象中那么恬静温和美好。孩子久坐不住,起来到处玩耍,把餐桌弄得一团糟。。。。。。那么带孩子快乐用餐,妈妈们需怎么做才好呢?快乐地用餐说到快乐,就……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网