正文

bagging算法原理（Bagging算法原理）

发布时间：2023-04-07 17:18:22 稿源：创意岭阅读： 69

大家好！今天让创意岭的小编来大家介绍下关于bagging算法原理的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解SEO相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、机器学习中Bagging和Boosting的区别
2、Bagging与Boosting最大的不同在哪里?它们对模型性能最大的贡献在哪里?
3、分类算法 - adaboost
4、随机森林算法是什么？

bagging算法原理（Bagging算法原理）

一、机器学习中Bagging和Boosting的区别

【机器学习】Boosting和Bagging的差别

boosting和bagging的差别：

bagging中的模型是强模型，偏差低，方差高。目标是降低方差。在bagging中，每个模型的bias和variance近似相同，但是互相相关性不太高，因此一般不能降低Bias，而一定程度上能降低variance。典型的bagging是random forest。

boosting中每个模型是弱模型，偏差高，方差低。目标是通过平均降低偏差。boosting的基本思想就是用贪心法最小化损失函数，显然能降低偏差，但是通常模型的相关性很强，因此不能显著降低variance。典型的Boosting是adaboost，另外一个常用的并行Boosting算法是GBDT（gradient boosting decision tree）。这一类算法通常不容易出现过拟合。

过拟合的模型，通常variance比较大，这时应该用bagging对其进行修正。

欠拟合的模型，通常Bias比较大，这时应该可以用boosting进行修正。使用boosting时，每一个模型可以简单一些。

金融常见的问题，是只用linear regression，这样一般来讲是欠拟合的，因此需要引入一些非线性的特征，欠拟合的模型可以先使用boosting尝试一下，如果效果不好，再使用其他的方法。过拟合的方法，通常使用bagging是会有一定的作用的。

二、Bagging与Boosting最大的不同在哪里?它们对模型性能最大的贡献在哪里?

两种不同的集成算法，Bagging采用重复取样:boostrap 每个个体分类器所采用的训练样本都是从训练集中按等概率抽取的，因此Bagging的各子网能够很好的覆盖训练样本空间，从而有着良好的稳定性。

而Boosting注重分类错误的样本，将个体子网分类错误的训练样本的权重提高，降低分类错误的样本权重，并依据修改后的样本权重来生成新的训练样本空间并用来训练下一个个体分类器。然而，由于Boosting算法可能会将噪声样本或分类边界样本的权重过分累积，因此Boosting很不稳定，但其在通常情况下，其泛化能力是最理想的集成算法之一。

你得自己去查文献，别来这问，这没人做学术的，我也是偶尔看到你的提问。

三、分类算法 - adaboost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

Adaboost算法已被证明是一种有效而实用的Boosting算法。该算法是Freund和Schapire于1995年对Boosting算法的改进得到的，其算法原理是通过调整样本权重和弱分类器权值，从训练出的弱分类器中筛选出权值系数最小的弱分类器组合成一个最终强分类器。基于训练集训练弱分类器，每次下一个弱分类器都是在样本的不同权值集上训练获得的。每个样本被分类的难易度决定权重，而分类的难易度是经过前面步骤中的分类器的输出估计得到的。

Adaboost算法在样本训练集使用过程中，对其中的关键分类特征集进行多次挑选，逐步训练分量弱分类器，用适当的阈值选择最佳弱分类器，最后将每次迭代训练选出的最佳弱分类器构建为强分类器。其中，级联分类器的设计模式为在尽量保证感兴趣图像输出率的同时，减少非感兴趣图像的输出率，随着迭代次数不断增加，所有的非感兴趣图像样本都不能通过，而感兴趣样本始终保持尽可能通过为止。

1. 先通过对N个训练样本的学习得到第一个弱分类器

2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器

3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器

4. 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定

由Adaboost算法的描述过程可知，该算法在实现过程中根据训练集的大小初始化样本权值，使其满足均匀分布，在后续操作中通过公式来改变和规范化算法迭代后样本的权值。样本被错误分类导致权值增大，反之权值相应减小，这表示被错分的训练样本集包括一个更高的权重。这就会使在下轮时训练样本集更注重于难以识别的样本，针对被错分样本的进一步学习来得到下一个弱分类器，直到样本被正确分类。在达到规定的迭代次数或者预期的误差率时，则强分类器构建完成。

（1）很好的利用了弱分类器进行级联

（2）可以将不同的分类算法作为弱分类器

（3）AdaBoost具有很高的精度

（4）相对于bagging算法和Random Forest算法，AdaBoost充分考虑的每个分类器的权重

（1）AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定

（2）数据不平衡导致分类精度下降

（3）训练比较耗时，每次重新选择当前分类器最好切分点

看到这个算法你是不是似曾相识？对，他们都是由多个弱算法组合成一个强算法的原理。印证了“三个臭皮匠赛过诸葛亮”。但是其实他们棣属于不同的算法框架：

1）Bagging + 决策树 = 随机森林

2）AdaBoost + 决策树 = 提升树

那么bagging和boosting分别是什么呢？

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。

A）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）

B）每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）

C）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）

其主要思想是将弱分类器组装成一个强分类器。在PAC（概率近似正确）学习框架下，则一定可以将弱分类器组装成一个强分类器。关于Boosting的两个核心问题：

通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。

通过加法模型将弱分类器进行线性组合，比如AdaBoost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。而提升树通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型。

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

这两种方法都是把若干个分类器整合为一个分类器的方法，只是整合的方式不一样，最终得到不一样的效果，将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一分类器的分类效果，但是也增大了计算量。

四、随机森林算法是什么？

随机森林算法是以决策树为基学习器构建bagging的基础上，进一步在决策树的训练过程中引入随机属性的算法。

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。

而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。

bagging算法原理（Bagging算法原理）