六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

神经网络法节点遗失规避神经网络过拟合的一种简单方

  推荐原因:带有大量参数的深度神经网络是非常强大的机器学习系统,但过拟合是此类网络中一个比较严重的问题。节点遗失(Dropout)是解决此类系统中过拟合问题的一种简单方法。这种方法的基本思想是在训练时随机丢弃节点,防止不同单元之间过度地相互适应。相对于其他正则化方法,节点遗失能够更明显地改善过拟合问题。我们在之后的文章中展示了节点遗失的使用效果,它能明显地改善语音识别、文档分类、生物计算等领域中有监督学习的表现效果。神经网络法
  1:hr简介
  深度神经网络包含多个可以学习输入和输出变量之间关系的、非线性隐藏层,使其具备较好的表现力。但是当训练数据较为有限时,许多关联只是由样本中的噪音造成的,这很可能会导致模型的过拟合。目前已经有几种方法来处理过拟合的问题,例如在测试集表现变差时停止训练模型以及多种引入权重惩罚的方法(NowlanandHinton,1992)。
  如果计算能力不受限制,正则化的最好方式是对所有可能参数集的预测结果取平均,并使用给定训练集的后验概率对参数设置进行加权。但是我们现在想用较少的计算量达到近似贝叶斯黄金标准的表现效果,所以我们提出使用遗失节点的方法。神经网络法
  模型组合一般都能提高机器学习的模型表现,但是对于大型的神经网络,将多个独立训练模型的输出结果取平均是很难实现的。当各个模型之间有明显的差异的时候,模型组合是比较有效的。为了找到差异化的模型,我们要么构建结构不同的模型,要么使用完全不同的数据进行训练。为不同结构下的模型寻找最优的超参数并不是一个简单的任务并且需要非常大的计算量。使用不同的训练集也非易事,本身大型神经网络需要的训练数据就比较多,我们可能很难拿到足够多的数据用以训练不同的模型。神经网络法
  节点(或称神经元)遗失的方法能够很好的解决上述问题,这种方法近似于对非常多的(约为指数倍的量级)、具备不同结构的模型进行组合。这里的节点遗失是指随机丢弃神经网络中的节点(包括隐含和可见节点)以及该节点的传入和传出连接。
  2:hr模型描述
  3:hr带有节点遗失的神经网络学习过程
  3。1后向计算
  类似于标准神经网络,带有节点遗失的神经网络模型可以使用随机梯度下降的方法进行训练。唯一的不同是,前向和后向计算都是在变薄的神经网络上进行,每个参数的梯度是在每个训练案例集上取平均。任何提升随机梯度下降模型的方法在带有节点遗失的神经网络模型中同样适用。
  3。2无监督的预训练
  神经网络可以使用RBMs(RestrictedBoltzmannMachines)、自动编码器、DBMs(DeepBoltzmannMachines)进行预训练。预训练是利用无标签数据的有效方式。预训练叠加反向算法微调,在某些情景下,会比使用随机初始化进行微调的效果要好。
  节点遗失算法可以应用在被预训练过的数据集。预训练过程保持不变,预训练得到的权重要乘以1p,以确保每个节点在使用节点遗失方法时的预期输出与预训练一致。我们原本担心节点遗失的随机性会抹去预训练权重中的信息。当微调期间使用的学习速率与随机初始化网络中的最优学习速率相当的时候,这种情况确实会发生。但只要学习速率降低一些,预训练权重中的信息就会被保留下来,并且与不使用节点遗失的方法相比,提升了模型在最终泛化误差方面的表现。神经网络法
  4:hr实验结果
  我们使用以下不同类型的标准数据集对使用节点遗失方法的神经网络进行训练,在所有数据集中都发现节点遗失确实提升了神经网络的模型表现。我们使用的数据集描述如下:
  MNIST:手写数字的标准数据集。
  TIMIT:用于语音识别的标准演讲数据集。
  CIFAR10andCIFAR100:微小的自然图像(Krizhevsky,2009)。神经网络法
  街景门牌号数据集(SVHN):GoogleStreetView收集的房屋号码的图片(Netzeretal。,2011)。
  ImageNet:大量的自然影象。
  ReutersRCV1:路透社新闻专线的文章合集。
  替代(基因)剪接数据集:用于预测替代基因剪接的RNA特征数据(Xiongetal。,2011)。
  我们之所以选取多个不同类型的数据集是为了说明节点遗失是提升神经网络表现的普适方法,并不会限定在某个特定领域。本文我们仅展示TIMIT数据的模型结果,其他模型结果可参看原始文献。神经网络法
  4。1TIMIT测试结果
  TIMIT数据集收录了680位演讲者的录音,涵盖了美式英语的8种方言。我们在21个对数滤波器窗口上训练使用节点遗失的神经网络,来预测中心帧的标签。下表比较了使用节点遗失和其他方法在表现上的差别。如果使用6层神经网络模型,普通神经网络的出差率为23。4,使用节点遗失后,出错率降低到21。8。如果我们对权重进行预训练,4层神经网络模型的出错率降低到22。7,加入节点遗失之后出错率降低到19。7;8层神经网络的原始出错率为20。5,加入节点遗失之后,出错率降低到19。7。
  4。2与标准正则化方法的对比
  目前已经有几种正则化的方法用于减轻神经网络的过拟合问题,例如L2权重衰减、LASSO、KL稀疏和最大范数正则化。节点遗失可以被视为另一种正则化神经网络的方法。我们使用MNIST数据集比较了节点遗失和其他正则化方法的优劣。神经网络法
  使用不同正则化方法的随机梯度下降训练相同的神经网络结构模型(78410241024204810)。下表展示了模型结果,每种正则化方法的超参数从测试集获得,我们发现节点遗失叠加最大化范数的出错率最低。
  5:hr节点遗失神经网络模型的使用指引
  在超参数调试方面,神经网络模型确实声名狼藉,即使我们加入节点遗失,也不能改善这个问题。本部分我们介绍一些在使用节点遗失方面的探索。神经网络法
  5。1神经网络的大小
  我们可以预期遗失节点会减弱单个神经网络的效果,如果我们用n表示隐含层的节点数量,p表示单个节点的保留概率,那么在经过节点遗失之后,预期只会有pn个节点被保留下来,并且这pn各节点每次都不一样、相互之间也不能任意的相会适应。因而如果在给定任务下,带有n个节点的标准神经网络是比较合适的,那么在带有节点遗失的神经网络中至少要使用np个节点。
  5。2学习速率和动量
  与标准的随机梯度下降相比,节点遗失引入了更多噪音。因而在使用节点遗失的方法时,为了弥补这种缺陷,通常要使用标准神经网络中最优学习速率的10100倍速率。另一种降低这种噪音影响的方法是使用更高的动量。标准神经网络中的动量值通常为0。9,在使用节点遗失的方法后,我们发现0。950。99的动量值更为合适。使用更高的学习速率动量值也能明显加快学习过程。神经网络法
  5。3最大范数正则化
  虽然更高的动量值学习速率能够加快学习过程,但是有时候也会导致权重增长到非常高的水平,为了防止这一现象,我们使用最大范数正则化进行限制。这种方法将每个隐含层的传入向量的范数限制在一个常数c以内,c的取值通常在3到4之间。
  5。4遗失率
  节点遗失的方法又引入了一个新的超参数节点的保留概率p。这个超参数控制了节点遗失的强度。p1意味着不进行遗失,p越低节点遗失的概率越大。隐含层节点的p值一般在0。50。8之间取值。对于输入层,p的取值取决于输入数据的类型。对于实值输入(例如图像或者演讲音频),p值通常为0。8。对于隐含层,p值的选取与隐含节点数量n有关,如果p比较小就需要一个比较大的n,但这样会降低训练的速度并且导致拟合不足,但p太大也不利于降低过拟合问题。神经网络法
  6:hr结论
  节点遗失通过减轻过拟合提升神经网络的模型表现。标准的后向算法无法避免节点之间的相会适应从而使得模型在训练集上表现较好,但是测试集或者其他新的数据集上表现较差。随机遗弃节点使得每个节点是否出现变得不确定,从而打破了节点之间的相互适应。我们发现这种方法在很多领域都能提升神经网络的表现,例如对象分类、数字识别、演讲识别、文档分类等。这说明节点遗失的方法是普适的、并不限定于某个特定领域。
  节点遗失的一个缺陷是它会增加训练时间。训练带有节点遗失的神经网络所用的时间一般是相同构造下标准神经网络的23倍。时长增加的主要原因是参数更新带有更多噪音。这种随机性阻止了过拟合但也消耗了时间。神经网络法

中秋节的祝福语句中秋将至,给亲人朋友的祝福语你准备好了吗?下面祝福语大全让你寻到哪些简短10个字,甚至只有4个字的祝福语,赶紧去瞅瞅。一、中秋祝福语简短4字1。春花秋月2。浩……实用小儿多动症家庭自测法宝宝好动就是多动症吗?当然不是,宝宝多动也许是性格使然呢!那么如何在家里就判断除宝宝有没有多动症呢?一、幼儿多动症的症状表现一般多动的孩子在安静的环境下会有所收敛,……鼠年师姓有寓意的女孩名字大全师姓好听的名字集合给宝宝起一个好听的名字是每一对父母都要做到的事情,因为名字不仅仅只是一个名字,更是一个人的形象。然而起一个好的名字却不是一件容易的事情。那么该怎么给师姓女孩子起一个有寓意的好名……论五代十国时期在历史进程中的地位五代十国的历史时期从最早在南方建国的前蜀(891)算起直到最后一个割据势力北汉的覆灭(979)为止共计88年的时间。五代是指在中原一带相继建立的后梁、后唐、后晋、后汉、后周五个……神雕侠侣中孙婆婆为什么对杨过那么好杨过自幼是一名孤苦无依的孤儿,或许天无绝人之路吧,杨过被郭靖夫妇找到后,一直加倍疼爱他。郭靖将杨过送到全真教后,虽然杨过备受赵志敬和鹿清笃的欺侮,但是杨过遇到孙婆婆和小龙女后,……玻璃一般的爱情他第一次去看她的时候,她拿出一只印花的玻璃杯为他沏茶。她小心的把杯子洗了一遍又一遍,然后才放进青绿透香的茶叶。当她将开水冲进去,淡绿的波刚刚翻起时,只听得一声脆响,茶杯赫然裂出……早期教育父母溺爱孩子的危害现在的家长都把孩子视为一切,只要孩子想要的都会满足他,买东西要买最贵的,上幼儿园要上最好的,其实,对孩子过度的关爱并不好。父母过分溺爱孩子其实就是害了孩子,下面就来看过分溺爱孩……佩戴乳罩要留意什么事宜美少女在乳房发育阶段中还要适度佩戴乳罩。由于乳房沒有肌纤维,只能腺机构和人体脂肪,支撑点他们的是结蹄。这类结蹄像一张紧绷的纤维网,起着支撑点的功效。可是,它和肌纤维不一样,沒有……女朋友不粘人说明什么操作方法01:hr独立性格很多人说女友不粘人说明女友不爱你,其实这有些片面,有很多女生性格比较的独立,根本不喜欢粘着别人,那么自然就会出现不粘着男友的事情了。……水杉种植之炭疽病的防治水杉适应性强,喜湿润生长快,北京以南各地均有栽培。材质轻软,可供建筑、板料、造纸等用;树姿优美,为庭园观赏树。下面介绍一下水杉种植之炭疽病的防治。炭疽病是我国水杉常见的病……考研倒计时一个人也要像一支队伍来源:华大研究生考研倒计时17天武汉的冬天很冷,天空一直阴郁着天天泡在图书馆里,整个人都围着考研转一次次经过图书馆的闸机,一次次翻开泛黄的书页拒绝……雪天开车注意事项1雾天能见度小于1公里时,必须开大灯和后雾灯。开大灯不仅是为了看清前车,更重要的是提醒前车。否则前车在雾大时并线前很难发现后面有车,容易造成后车追尾。2雾天晚上不能开远光……
桃花花瓣的形状桃花的花瓣为辐射对称花,花萼为5个合生生长,花瓣则是离生生长,雄花比较多,桃花的花色丰富多彩,以白、红色最为常见,具有很高的观赏能力,经常被栽种至庭院之中,枝条上有粗糙的绒毛,……宠物的养护小妙招柯基钙质高食物柯基不仅人类会有缺钙的情况,柯基同样也会有缺钙的情况出现,这就要看平时宠物主人在照顾柯基的饮食起居上是否做得够好了。不能总是单一的给柯基吃狗粮,可以多喂些钙质高的食物给它吃,并且搭……蚕豆怎样套种胡萝卜胡萝卜作为高产蔬菜,在互助县种植面积逐年增多,为了充分利用土地面积,近两年,在川水地区进行了蚕豆套种胡萝卜栽培,改变了过去单一种植模式,达到了一举两得的目的。经多处测产,……长啥面相的人不宜结交别以为这是危人耸听,相学中,有害人之格,有这些特点的人,多生害心,无论谁与之在一起,或多或少受之所害。一、头突,面突,耳薄如纸,其形如兔,这种人一生抢夺利益,不惜损人利己……永远的君主小男孩是什么身份是命运还是神的存在TheKing永远的君主中小男孩的身份逐渐曝光,我们可以看到他并不是普通的小男孩,而是拥有上帝视角神一般的存在,后续肯定还会有故事,说不定他会帮李衮战胜李霖。下面,我们来看看小……凉席哪面是正哪面是反凉席可谓是生活中常见的一个物件,尤其是到了夏季因其睡感冰凉吸汗效果极佳更是备受人们的喜爱,但很多人在使用凉席的时候却一直纠结哪面是正哪面是反,下面小编就和大家一起来看看吧。……七夕告知你五芒星的神话故事芒星王牌:Poseidon,海神。一个有钱的神。和Crete迷宫有关。这是Daedalus的故事,制造Crete迷宫的人。出身在Athens皇室,一个优秀的工匠。五芒星之……潜水艇鱼好养吗怎么养水温:饲养潜水艇鱼时,一定要控制好水的温度,因为它们对于水温是非常敏感的,一般要保持在2630之间。水质:水体酸碱度保持在6。8左右就可以。它们对于水的硬度没有严格要求,但要及……冰壶世界冠军王冰玉创办的传世体育拿到了千万级轮投4月26日消息,据体育大生意报道,哈尔滨传世体育文化发展有限公司已于近日完成了千万级PreA轮融资,本轮投资方黑龙江省科力高科技产业投资有限公司(科力投资)和黑龙江凯致天使创业……营销是什么意思营销原则主要包括哪些就是区别的艺术营销是什么意思?市场营销的定义和策略普遍渗透到各个机构,即从董事会到工厂生产线;普遍扎根于人们的心中,即从操作员到全科医师。换句话说,总体营销是公司范围内的营销,所有员工都在营……李诞的这句话我简直要给分这才是成年人做事的最佳姿这几年,坦白讲,我对他人的期待越来越低了。不是说那种灰心丧气啊,而是我打心底觉得,人一旦想明白这点真的能释然许多。01、降低预期,是起步时的好心态我不是前阵子……谈谈如何加强道德修养操作方法01:hr学习道德楷模道德楷模之所以成为楷模,就是因为他身上有道德的闪光点,比如拾金不昧,乐于助人,尊老爱幼等等。古人云:择善而从之,可见我们学习他人道德的……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网