您好,欢迎光临本网站![请登录][注册会员]  
文件名称: 总结:Bootstrap(自助法),Bagging,Boosting(提升) - 简书.pdf
  所属分类: 机器学习
  开发工具:
  文件大小: 2mb
  下载次数: 0
  上传时间: 2019-10-13
  提 供 者: qq_15******
 详细说明:关于机器学习方面的集成算法,包括boosting和bagging,里面讲解详细,值得下载2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 assiier 1 -9 Decition boundary Classifier 2 Decislon boundary 2 Classifier 3 o Decision boundary 3 ▲△▲ △6▲ Feature 1 Feature 1 Featur (∑ g Feature Ensemble based decision boundary 这里写图片描述 一句话,假设各弱分类器间具有一定差异性(如不同的算法,或相同算法不同参 数配置),这会导致生成的分类决策边界不同,也就是说它们在决策时会犯不同 的错误。将它们结合后能得到更合理的边界,减少整体错误,实现更好的分类效 果 Bagging( bootstrap aggregation) 鳶: bagging和 boosting部是集成学习( ensemble learning)领的本算法 bagging:从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预 测的结果进行综合产生最终的预测结果,至于为什么 bootstrap aggregation,因为宫 拙耿训练样本的候米用的就是b0 otstrap的方法! Bagging翁嘴过程 bagging 综合 训练集 子抽样刂子训练集训练叫基模型1 预测训 预测 结果人 子抽样子训练集2训练基模型2 预测 y 综合 孑抽样子训练集m一训练一州基模型m 预测 测试集 这里写图片描述 https://www.jianshu.com/p/708dff71df3a 3/15 2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 ·从样本集中用 Bootstrap采样选出n个训练样本(放回,因为别的分类器抽训练样本的时 候也要用) ·在所有属性上,用这n个样本训练分类器( caRT or svmor…) 重复以上两步m次,就可以得到m个分类器( CaRT or sm or…) ·将数据放在这m个分类器上跑,最后投票机制(多数服从少数)看到底分到哪类(分类 问题) Bagging代表算法RF(随机森林 RF Random Forest 真中的 Random就是指 1.训样本诺择面的 Random Bootstrap方法随机选择子样本 2特征选择方面的 Random 属性集中随机选择k个属性,每个树节点分裂时,从这随杋的k个属性,选择最优 的(如何选择最优又有各种最大增益的方法,不在本文讨论范围內)。 RF构造流程 自动样本集1树分类器1 诠都训练本 自动样本焦 树分类器 隨机森林 投票分类 自动萍本∽树分类 这里写图片描述 https://www.jianshu.com/p/708dff71df3a 4/15 2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 1用 Random(训练样本用 Bootstrap方法,选择分离叶子节点用上面的2)的方式构 造一棵决策树(CART) 2.用1的方法构造很多决策树每棵决策树都最大可能地进行生长而不进行剪枝,许 多决策树构成一片森林,决策树之间没有联系 3测试数据进入每一棵决策树,每棵树做出自己的判咊,然后进行投票选出最终 所属类别(默认每棵树权重一致) RF优点 1不容易出现过拟合,因为选择训练样本的时候就不是全部样本。 2.可以既可以处理属性为离散值的量,比如ID3算法来构造树,也可以处理属性为 连续值的量,比如C45算法来构造树。 3对于高维数据集的处理能力令人兴奋,它可以处理成干上万的输入变量,并确 定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输岀变 量的重要性程度,这是一个非常便利的功能。 4分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法 RF缺点 1.随机森林在解决回归问题时并没有像它在分类中表现的那么好,这是因为它并 不能给岀—个连续型的输岀。当进行回归时,随机森林不能够作岀超越训练集数 据范围的预测,这可能导致在对某些还有特定噪声的数据进行建模时岀现过度拟 合 2对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒子—你几乎无 法控制模型內部的运行,只能在不同的参数和随杋种子之间迸行尝试 Boosting : Boosting是一殛掴架簟法,用来提高弱分类器磅度的方法,这种方法通过拗造 一个预测数序列,然后以一定的方式将/们合成为一个准确度较高的颅测的数,还 有就是, Boosting算法更嫉失注错分辨样本,这点和 Active Learning的寻线最有价 航测样本有点遥相应觉 很抽象对不对,没关系,我们通过 Adaboost来理解这个核心思想。 Boosting算法代表 Adaboost( Adaptive Boosting) https://www.jianshu.com/p/708dff71df3a 2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 核心思想:一种迭代算法,针对同一个训陈练集训练不同的分类器(弱分类器),然后 进行分类,对于分类正确的样本权值低,分类错误的样本权值高〔通常是边界附 近的样本),最后的分类器是很多弱分类器的线性叠加(加权组合),分类器相 当简单。实际上就是一个简单的弱分类算法提升oost)的过程。 结合图形来过一遍 Adaboost算法 Original Training set: Equal Weights to all training samples 这里写图片描述 算法开始前,需要将每个样本的权重初始化为1/m,这样-开始毎个样本都是等概 率的分布,每个分类器都会公正对待。 ROUND I ++ C1=0.30 D 这里写图片描述 https://www.jianshu.com/p/708dff71df3a 2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 Round1,因为样本权重都一样,所以分类器开始划分,根据自己分类器的情况, 只和分类器有关。划分之后发现分错了三个"+"号,那么这些分耕牛本,在给下 一个分类器的候权至就得高就是会影你到下次耿训练样本的分布,就是 提醒下一个分类器,诶!你注意点这几个小子,我上次栽在他们手里了!” ROUND 2 + ⊙ Ey=0.21 0.65 ⊙ 这里写图片描述 Round2,第二代分类器信誓旦旦的对上一代分类器说"我知道了,大哥!我定睁 大眼睛好好分着三个玩意!"ok,这次三个上次分错的都被分出来了,但是并不是 全部正确,这次又栽倒在左下角三个""上了,然后临死前,第二代分类器对下 代分类器说¨这次我和上一代分类器已经把他们摸得差不多了,你再稍微注意下左 下角那三个小子,也别忘了上面那三个(一代错分的那三个"+")!" ROUND 3 + 3=0.14 2=0.92 这里写图片描述 https://www.jianshu.com/p/708dff71df3a 2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 Round3:有了上面两位大哥的提醒,第三代分类器表示,我差不多都知道上次大哥 们都错哪了,我只要小心这几个,应该没什么问题!只要把他们弄错的我给整对 了,然后把我们收集的信息一对,这不就行了么!ok,第三代分类器不负众望, 成功分对上面两代分类器重点关注的对象,至于分错的那几个小的,以前大哥们 都分对了,我们坐下来核对一下就行了 final sign.4 0.6 +0.92 这里写图片描述 最后,三个分类器坐下来,各自谈了谈心得,分配了下权重,然后一个诸葛亮就 诞生啦!是不是道理很简单!至于权重如何计算,不在本文讨论范围内。 Adaboost优点 1可以使用各种方法构造子分类器, Adaboost算法提供的是框架 2简单,不用做特征筛选 3相比较于RF,更不用担心过拟合问题 Adaboost点 1从wik上介绍的来看, adaboost对于噪音数据和异常数据是十分敏感的。 Boosting方法本身对噪声点异常点很敏感,因此在每次迭代时候会给噪声点较大 的权重,这不是我们系统所期望的。 2运行速度慢,凡是涉及迭代的基本上都无法采用并行计算, Adaboost堤是一种"串 行"算法所以GBDT( Gradient Boosting Decision Tree)也非常慢。 https://www.jianshu.com/p/708dff71df3a 2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 Pay Attention 1 Bagging:树"并行"生成如RF; Boosting:树"串行"生成如 Adaboost 2 boosting中的基模型为弱模型,而RF中的基树是强模型(大多数情况) 3 boosting重采样的不是样本,而是样本的分布,每次迭代之后,样本的分布会发 生变化,也就是被分错的样本会更多的出现在下一次训练集中 4明确一点,我们迭代也好( Adaboost并行(RF)也好,只和训练集有关,和测试 集真的一毛钱关系都没有好么!我们先把原始数据分类测试集和训练集,然后测 试集放一边,训练集里面再挑子集作为迭代算法用的训练集!这个和Kfod思想很 像 致谢 转-看懂论文的机器学习基本知识(四)-bootstrap(htps:/inkjianshu.com? t=http://www.xuebuyuan.com/2047475.html 知乎精选-统计中的 Bootstrap方法是指什么?与 Monte carlo方法有什么联系与区 B]?(https://inkjianshucom?t=http://www.zhihujingxuan.com/20743.html) 红眼睛的猫-对于bootstrap的一些粗浅认识(转载)(htts:/linkjianshu.com? t=http://blog.sina.com.cn/s/blog_64210df9010115j7.html busyfruit-Boosting原理及其应用(https:/linkjianshu.com? t=htp://ww.cnblogs.com/fruit/articles3011429htm)转决策树(ID3、C4.5、 CART、随机森林)(htps:/linkjianshu.com? t=http://www.2cto.com/kf/201605/509184.html) W28971023-GBDT(MART)迭代决策树入门教程|简介(htps:linkjianshu.com? t=http://blog.csdnnet/w28971023/article/details/8240756) giao-条件熵信息增益(htps:/linkjianshu.com? t=http:blog.csdnnet/gxiaob/article/details/8492380) jasonfreak-使用sklearn进行集成学习—理论(https:inkjianshu.com? t=http://www.cnblogs.com/jasonfreak/p/5657196.html) 机器学习-为什么说 bagging是减少 variance,而 boosting是减少bas? (https://inkjianshucom?t=https://www.zhihu.com/question/26760839) abcjennifer-统计学习方法CART, Bagging, Random forest, Boosting (https:inkjianshucomt=http:/blog.csdnnet/abcjennifer/article/details/8164315) yshnny-bootstrap简单介绍(htos:∥inkjianshu.com? t=http:/blog.sinacom.cn/s/blog5033f3b4010117ff.html u010659278-boosting和bagging算法学习(hts:/linkjianshu.com? t=http:/blog.csdnnet/u010659278/article/details/44527437) a1b2c304123456-集成学习算法总结-Boosting和Bagging(hts/linkjianshu.com? t-htp: ib csdn. net/article/machinelearning/35135) marlee-随机森林 https://www.jianshu.com/p/708dff71df3a 9/15 2019/4/27 总结: Bootstrap(白助法), Bagging, Boosting(提升)-简书 (https://ink.jianshu.com?t=http://www.cnblogs.com/emanlee/p/4851555.html eo鱼-随机森林(https://linkjianshucom t=http:blogsinacom.cn/s/blog_7673d4a50102vm6i.html) 51CTO.COM-机器学习的算法(1)决策树之随机森林(https:inkjianshucom t=http://database.51cto.com/art/201407444788.htm) handspeaker-RandomForest随机森林总结(htts:/inkjianshu.com? t=http://www.cnblogs.com/hrinw/p/3850459.html) f=g]-orisun(https://ink.jianshu.com?t=http:/www.cnblogs.com/zhangchaoyang) tianguokaka-CART分类算法(htos:/linkjianshu.com? t-=http:/blog.csdnnet/tianguokaka/article/details/9018933 wxquare-决策树模型ID3C4.5CART算法比较(htps:/linkjianshu.com? t=http://www.cnblogs.com/wxquare/p/5379970.html) 周志华- Boosting和 Bagging综述[J计算机工程与设计] 宋静-SⅥM与 Adaboost慣算法的应用与研究[M[大连海事大学] 转-深入浅析python中的多进程、多线程、协程(https://inkjianshucom t=http://www.jb51.net/article/87145.htm?pc) Vamei-Python标准库10多进程初步multiprocessing包)(htps:/linkjianshu.com? t=http://www.cnblogs.com/vamei/archive/2012/10/12/2721484.html 为程序员服务- Python多进程中使用共享内存在进程之间共享数据 (https://inkjianshu.com?t=http:/outofmemory.cn/code-snippet/2266/python duojincheng-usage-gongxiangneicun-process-between-share-data) LegenDavid-随机森林和GBDT的几个核心问题(htts:/linkjianshu.com? t=http://blog.csdnnet/legendavid/article/details/51878581) handspeaker--RandomForest随机森林总结(https:linkjianshu.com? t=http:/www.cnblogs.com/hrinw/p/3850459.html) DarkScope-Adaboost--从原理到实现(hts:nkjianshu.com? t=http://blog.csdnnet/darkscope/article/details/14103983 百度技术博客-Boosting算法简介(htps;/linkjianshu.com? t=http://baidutech.blog.51cto.com/4114344/743809/) 转-机器学习——决策树及其集成算法( Bagging、随机森林、 Boosting)- senlis Zheng(https://inkjianshu.com?t=http://www.tuicool.com/articles/7jfeeqm) 百度文库-Adaboost算法步骤(hts:/linkjianshu.com?t=htp!/wenkubaidu.com/link? url=xjrmob7rMkVnl9gpg6mloZlaAodY6TQGGToWIJ til7qgasMfeW7j9 1 StHAsXKhjpp 6dANOJLe23UDmdt2Zo5f8Nf41O5Zpxydmr-8VJ5m Logitboost,GentleAdaboost)(https:/link.jianshu.com?t=http://www.openost PEN开发经验库-几种Boos算法的比较( Discrete Ada Boost, Real adaboc open. com/ib/view/open 14-36021046513html) zengkui111分类算法—Adaboost(htts/linkjianshu.com? t=http:/zengkui.blog163.com/blog/static/21230008220121110111925175/) 学习笔记10-各种分类算法的优缺点(htps:/linkjianshu.com? t=http:/bbs.pingguorg/thread-2604496-1-1.html) 小礼物走一走,来简书关注我 https://www.jianshu.com/p/708dff71df3a 10/15
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 相关搜索: 机器学习bootstrap
 输入关键字,在本站1000多万海量源码库中尽情搜索: