六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

神经网络法节点遗失规避神经网络过拟合的一种简单方

  推荐原因:带有大量参数的深度神经网络是非常强大的机器学习系统,但过拟合是此类网络中一个比较严重的问题。节点遗失(Dropout)是解决此类系统中过拟合问题的一种简单方法。这种方法的基本思想是在训练时随机丢弃节点,防止不同单元之间过度地相互适应。相对于其他正则化方法,节点遗失能够更明显地改善过拟合问题。我们在之后的文章中展示了节点遗失的使用效果,它能明显地改善语音识别、文档分类、生物计算等领域中有监督学习的表现效果。神经网络法
  1:hr简介
  深度神经网络包含多个可以学习输入和输出变量之间关系的、非线性隐藏层,使其具备较好的表现力。但是当训练数据较为有限时,许多关联只是由样本中的噪音造成的,这很可能会导致模型的过拟合。目前已经有几种方法来处理过拟合的问题,例如在测试集表现变差时停止训练模型以及多种引入权重惩罚的方法(NowlanandHinton,1992)。
  如果计算能力不受限制,正则化的最好方式是对所有可能参数集的预测结果取平均,并使用给定训练集的后验概率对参数设置进行加权。但是我们现在想用较少的计算量达到近似贝叶斯黄金标准的表现效果,所以我们提出使用遗失节点的方法。神经网络法
  模型组合一般都能提高机器学习的模型表现,但是对于大型的神经网络,将多个独立训练模型的输出结果取平均是很难实现的。当各个模型之间有明显的差异的时候,模型组合是比较有效的。为了找到差异化的模型,我们要么构建结构不同的模型,要么使用完全不同的数据进行训练。为不同结构下的模型寻找最优的超参数并不是一个简单的任务并且需要非常大的计算量。使用不同的训练集也非易事,本身大型神经网络需要的训练数据就比较多,我们可能很难拿到足够多的数据用以训练不同的模型。神经网络法
  节点(或称神经元)遗失的方法能够很好的解决上述问题,这种方法近似于对非常多的(约为指数倍的量级)、具备不同结构的模型进行组合。这里的节点遗失是指随机丢弃神经网络中的节点(包括隐含和可见节点)以及该节点的传入和传出连接。
  2:hr模型描述
  3:hr带有节点遗失的神经网络学习过程
  3。1后向计算
  类似于标准神经网络,带有节点遗失的神经网络模型可以使用随机梯度下降的方法进行训练。唯一的不同是,前向和后向计算都是在变薄的神经网络上进行,每个参数的梯度是在每个训练案例集上取平均。任何提升随机梯度下降模型的方法在带有节点遗失的神经网络模型中同样适用。
  3。2无监督的预训练
  神经网络可以使用RBMs(RestrictedBoltzmannMachines)、自动编码器、DBMs(DeepBoltzmannMachines)进行预训练。预训练是利用无标签数据的有效方式。预训练叠加反向算法微调,在某些情景下,会比使用随机初始化进行微调的效果要好。
  节点遗失算法可以应用在被预训练过的数据集。预训练过程保持不变,预训练得到的权重要乘以1p,以确保每个节点在使用节点遗失方法时的预期输出与预训练一致。我们原本担心节点遗失的随机性会抹去预训练权重中的信息。当微调期间使用的学习速率与随机初始化网络中的最优学习速率相当的时候,这种情况确实会发生。但只要学习速率降低一些,预训练权重中的信息就会被保留下来,并且与不使用节点遗失的方法相比,提升了模型在最终泛化误差方面的表现。神经网络法
  4:hr实验结果
  我们使用以下不同类型的标准数据集对使用节点遗失方法的神经网络进行训练,在所有数据集中都发现节点遗失确实提升了神经网络的模型表现。我们使用的数据集描述如下:
  MNIST:手写数字的标准数据集。
  TIMIT:用于语音识别的标准演讲数据集。
  CIFAR10andCIFAR100:微小的自然图像(Krizhevsky,2009)。神经网络法
  街景门牌号数据集(SVHN):GoogleStreetView收集的房屋号码的图片(Netzeretal。,2011)。
  ImageNet:大量的自然影象。
  ReutersRCV1:路透社新闻专线的文章合集。
  替代(基因)剪接数据集:用于预测替代基因剪接的RNA特征数据(Xiongetal。,2011)。
  我们之所以选取多个不同类型的数据集是为了说明节点遗失是提升神经网络表现的普适方法,并不会限定在某个特定领域。本文我们仅展示TIMIT数据的模型结果,其他模型结果可参看原始文献。神经网络法
  4。1TIMIT测试结果
  TIMIT数据集收录了680位演讲者的录音,涵盖了美式英语的8种方言。我们在21个对数滤波器窗口上训练使用节点遗失的神经网络,来预测中心帧的标签。下表比较了使用节点遗失和其他方法在表现上的差别。如果使用6层神经网络模型,普通神经网络的出差率为23。4,使用节点遗失后,出错率降低到21。8。如果我们对权重进行预训练,4层神经网络模型的出错率降低到22。7,加入节点遗失之后出错率降低到19。7;8层神经网络的原始出错率为20。5,加入节点遗失之后,出错率降低到19。7。
  4。2与标准正则化方法的对比
  目前已经有几种正则化的方法用于减轻神经网络的过拟合问题,例如L2权重衰减、LASSO、KL稀疏和最大范数正则化。节点遗失可以被视为另一种正则化神经网络的方法。我们使用MNIST数据集比较了节点遗失和其他正则化方法的优劣。神经网络法
  使用不同正则化方法的随机梯度下降训练相同的神经网络结构模型(78410241024204810)。下表展示了模型结果,每种正则化方法的超参数从测试集获得,我们发现节点遗失叠加最大化范数的出错率最低。
  5:hr节点遗失神经网络模型的使用指引
  在超参数调试方面,神经网络模型确实声名狼藉,即使我们加入节点遗失,也不能改善这个问题。本部分我们介绍一些在使用节点遗失方面的探索。神经网络法
  5。1神经网络的大小
  我们可以预期遗失节点会减弱单个神经网络的效果,如果我们用n表示隐含层的节点数量,p表示单个节点的保留概率,那么在经过节点遗失之后,预期只会有pn个节点被保留下来,并且这pn各节点每次都不一样、相互之间也不能任意的相会适应。因而如果在给定任务下,带有n个节点的标准神经网络是比较合适的,那么在带有节点遗失的神经网络中至少要使用np个节点。
  5。2学习速率和动量
  与标准的随机梯度下降相比,节点遗失引入了更多噪音。因而在使用节点遗失的方法时,为了弥补这种缺陷,通常要使用标准神经网络中最优学习速率的10100倍速率。另一种降低这种噪音影响的方法是使用更高的动量。标准神经网络中的动量值通常为0。9,在使用节点遗失的方法后,我们发现0。950。99的动量值更为合适。使用更高的学习速率动量值也能明显加快学习过程。神经网络法
  5。3最大范数正则化
  虽然更高的动量值学习速率能够加快学习过程,但是有时候也会导致权重增长到非常高的水平,为了防止这一现象,我们使用最大范数正则化进行限制。这种方法将每个隐含层的传入向量的范数限制在一个常数c以内,c的取值通常在3到4之间。
  5。4遗失率
  节点遗失的方法又引入了一个新的超参数节点的保留概率p。这个超参数控制了节点遗失的强度。p1意味着不进行遗失,p越低节点遗失的概率越大。隐含层节点的p值一般在0。50。8之间取值。对于输入层,p的取值取决于输入数据的类型。对于实值输入(例如图像或者演讲音频),p值通常为0。8。对于隐含层,p值的选取与隐含节点数量n有关,如果p比较小就需要一个比较大的n,但这样会降低训练的速度并且导致拟合不足,但p太大也不利于降低过拟合问题。神经网络法
  6:hr结论
  节点遗失通过减轻过拟合提升神经网络的模型表现。标准的后向算法无法避免节点之间的相会适应从而使得模型在训练集上表现较好,但是测试集或者其他新的数据集上表现较差。随机遗弃节点使得每个节点是否出现变得不确定,从而打破了节点之间的相互适应。我们发现这种方法在很多领域都能提升神经网络的表现,例如对象分类、数字识别、演讲识别、文档分类等。这说明节点遗失的方法是普适的、并不限定于某个特定领域。
  节点遗失的一个缺陷是它会增加训练时间。训练带有节点遗失的神经网络所用的时间一般是相同构造下标准神经网络的23倍。时长增加的主要原因是参数更新带有更多噪音。这种随机性阻止了过拟合但也消耗了时间。神经网络法

我的麻辣女老师踏,踏,踏,一听到这充满节奏感的脚步声,就知道我的班主任语文老师就要进班了!她姓杨,我们都叫她杨老师。杨老师每天都踩着一双恨天高,穿着一件连衣裙,衬的身材格外高挑,十分迷……眼泪不是懦弱走在街上,我总能时不时的听到喧闹声中格格不入的斥责声,看到孩子害怕的缩成一团,瑟瑟发抖的样子。而这时常常伴其左右的是家长的愤怒,孩子的无助与眼泪。每次见到此景,我的脑海里……家风以前,我不好好学习,妈妈一叫我学习,我就不耐烦了。但是,现在,在妈妈的指导下,让我懂得了勤奋学习才能使我得到优越的成绩,才能使我茁壮成长。一个阳光明媚的下午,妈妈要给我进……我心里有个春天朦胧的夜空,就像没有一丝涟漪的湖水,只有一轮皎洁的月,陪伴着点点繁星闪曜。清风微微拂过我的发梢,蝉鸣陪伴着行云流浪,回忆开始安静遥望远方。那一夜亦如今夜般,平静的,干净的,犹如……幸福的唠叨声妈妈的唠叨无处不在,一有机会就唠叨一下,让人不得安宁。早上,阳光明媚,我正在香甜的梦中度过。忽然,一声大叫:不早了,赶紧起床!我捂紧了被子,想继续做一个美梦,不料妈妈快速……失败的滋味我失败了,在那次才艺大赛中失败了,败得一败涂地,让我品尝到了苦涩的滋味。去年夏天,区里要举办一场才艺大赛。得知奖品丰厚,就毫不犹豫地报上了名。我自以为在吉他领域有天赋,极……游戏课堂写作课开始了,老师开心地说:同学们,今天我们来玩一个游戏,叫做画耳朵。话音刚落,同学们有的一蹦三尺高,有的高兴地大叫year。老师先在黑板上左画画,右画画,怎么也画不出来……书我的挚友书,一个如梦似幻的名字,是它陪我长大,伴我成长,和我一起经历生命中的每一次转弯,每一次磨难。初春,玉兰早早地开了,腊梅依然躲在墙角,迟迟不肯褪下颜色。望着阴沉沉的天,有些……回头是种美德一张五十元的人民币上印着毛爷爷的肖像,几张一块的人民币上西湖美景映入眼帘。他们的身上有几处折痕,而一旁的发票正在及其中发出吱吱的响声。只听刺啦一声:给。一些钱和小票送入了我的手……老院风,呼呼地吹,吹得老树落叶飘飞。叶,缓缓地落,落得老院苍凉一片。人,静静地坐,不住地摇头。从我记事起,这老院就一直存在,好像很久以前它就存在了。与其一同存在的,还有院中的……我和女娲过一天早晨,阳光射进窗户,一阵微风徐徐吹来,把我揽入其中,带我来到了一个奇妙的世界。这个世界里有五彩的云朵,好似一个个棉花糖,摸着舒服极了;还有一个巨大的宫殿。这是哪里啊?想着……这天我回家晚了挥毫泼墨、墨香千里、横竖撇捺、点提钩折。当我陶醉地沉浸在墨香之中,却忘记了还有一个人在焦急地等待省规范汉字书写大赛迫在眉睫,为了比赛能够取得优异的成绩,一放学,我就急忙冲……
桃花源记的作者是谁桃花源记原文及其创作背景桃花源记创作背景:元熙二年(420年)六月,刘裕废晋恭帝为零陵王,次年,刘裕采取阴谋手段,用毒酒杀害晋恭帝。这些不能不激起陶渊明思想的波澜。他无法改变、也不愿干预这……甘愿做配角的爱男子说爱,爱要生生世世。本就不是俗人,何苦贪恋红尘!痴妄的笑,笑的忘记尘世一切,唯有你用一生来守护。男子爱她,白衫似仙的女子,爱的痴迷,可渡生生世世。女……有哪些唯美古风好听诗意的昵称01hr1。才揽风尘2。淡墨青衫3。南岸青栀4。栀寒老酒5。墨城烟柳6。南风北至7。江南慕雨8。半盏孤茶9。醉婉笙歌10。……怎样快速取得老丈人的认可操作方法01:hr首先你在生活上对你的准老婆要无微不至的关怀,你们幸不幸福,他们过来人,一眼就看出来的。02:hr还有就是你要有事业心,没有人原意把自己的女儿嫁给一……青春期撞上更年期家长应该怎样出奇制胜青春期的孩子有着许多天马行空的举动和想法让父母烦恼不已,这时候如果他们也处于更年期的话,没有适当的相处方法就会产生很大的矛盾,接下来就一起看看青春期撞上更年期家长应该怎样出奇制……成吉思汗到底属于哪国人揭秘成吉思汗的国籍之争在我国历史上有出现过非常多的出色人才,在这5000多年的历史长河当中,这些人都做出了非常多值得名垂千史的功绩,引得后人对其市级赞叹有加。在这些杰出的人物当中,其中有一位身上所存……教代会会议记录20132014太平小学教代会会议记录时间9月6日下午3:00地点会议室会议主题一、学校20132014学年教师考核奖发放方案。二、讨……花椒和麻椒有什么区别在味觉方面麻椒味道比花椒更重吃过川菜的朋友一定知道花椒的厉害,麻麻的辣辣的,在嘴里回味无穷,但是你知道还有比花椒更厉害的东西吗?它就是麻椒。那么究竟花椒和麻椒的区别是什么呢?下面我们一起来看看吧!花……互联网时代产品定位就是圈子定位几块钱评论:产品的定位大致决定了受众规模,受众形成圈子,圈子内又会形成小圈子。正所谓:物以类聚,人以群分,圈子会体现你的身份等特征,你也会寻找符合自己身份等特征的圈子。来看一下……饮水机怎么清洗饮水机的清洗方法饮水机怎么清洗?饮水机的清洗方法首先我们来了解一下饮水机清洗的重要性。一般家庭饮水机使用36个月左右就应该进行一次消毒,而公共场所的饮水机使用频率高,消毒周期还应该……超高产水稻的土壤改良技术在种植水稻的过程中高产一直是农户所追求的,超高产的水稻是目前在努力的目标,怎样才能达到超高产又质优呢?下面就跟小编一起来看看超高产水稻的土壤改良技术吧!一、选择合适的品种……苹果树的生长周期如何划分苹果树从种植到结果需要多长时间?一棵苹果树从小苗到结果需要多久?苹果树种多长时间能结果?苹果树生长发育周期如何划分?以下三农网就作简单介绍,供网友们参考。苹果树按生长发育……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网