正文

网页分类算法（网页分类算法有哪些）

发布时间：2023-03-26 00:30:02 稿源：创意岭阅读： 1245 问大家

大家好！今天让创意岭的小编来大家介绍下关于网页分类算法的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

创意岭作为行业内优秀企业，服务客户遍布全国，网络营销相关业务请拨打175-8598-2043，或微信：1454722008

本文目录:

1、蜘蛛爬虫的原理和作用
2、爬虫抓取究竟是什么？
3、怎么防止浏览网页以及网站中病毒和木马（谢绝不要进入不健康网站的回答）
4、机器学习有哪些算法

网页分类算法（网页分类算法有哪些）

一、蜘蛛爬虫的原理和作用

关于搜索引擎的大话还是少说些，下面开始正文搜索引擎蜘蛛爬虫原理：

1 聚焦爬虫工作原理及关键技术概述

网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止，另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：

(1) 对抓取目标的描述或定义；

(2) 对网页或数据的分析与过滤；

(3) 对URL的搜索策略。

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

2 抓取目标描述

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：

（1）预先给定的初始抓取种子样本；

（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；

（3）通过用户行为确定的抓取目标样例，分为：

a) 用户浏览过程中显示标注的抓取样本；

b) 通过用户日志挖掘得到访问模式及相关样本。

其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。

现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征，基于目标数据模式和基于领域概念三种。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为：（1）预先给定的初始抓取种子样本；（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；（3）通过用户行为确定的抓取目标样例。其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。

基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。

3 网页搜索策略

网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。

3.1 广度优先搜索策略

广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。

3.2 最佳优先搜索策略

最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点。将在第4节中结合网页分析算法作具体的讨论。研究表明，这样的闭环调整可以将无关网页数量降低30%~90%。

4 网页分析算法

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。

4.1 基于网络拓扑的分析算法

基于网页之间的链接，通过已知的网页或数据，来对与其有直接或间接链接关系的对象（可以是网页或网站等）作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。

4.1.1 网页(Webpage)粒度的分析算法

PageRank和HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在，但忽略了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。针对这个问题，HITS算法提出了两个关键的概念：权威型网页（authority）和中心型网页（hub）。

基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很多在抓取路径上偏离主题的网页也指向目标网页，局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接（BackLink）的分层式上下文模型（Context Model），用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层次划分，从外层网页指向内层网页的链接称为反向链接。

4.1.2 网站粒度的分析算法

网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似，但是需要对网站之间的链接作一定程度抽象，并在一定的模型下计算链接的权重。

网站划分情况分为按域名划分和按IP地址划分两种。文献[18]讨论了在分布式情况下，通过对同一个域名下不同主机、服务器的IP地址进行站点划分，构造站点图，利用类似PageRank的方法评价SiteRank。同时，根据不同文件在各个站点上的分布情况，构造文档图，结合SiteRank分布式计算得到DocRank。文献[18]证明，利用分布式的SiteRank计算，不仅大大降低了单机站点的算法代价，而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是，常见PageRank 造假难以对SiteRank进行欺骗。

4.1.3 网页块粒度的分析算法

在一个页面中，往往含有多个指向其他页面的链接，这些链接中只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其具有较高重要性。但是，在PageRank和HITS算法中，没有对这些链接作区分，因此常常给网页分析带来广告等噪声链接的干扰。在网页块级别(Blocklevel)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block)，然后对这些网页块建立pagetoblock和blocktopage的链接矩阵，分别记为Z和X。于是，在pagetopage图上的网页块级别的PageRank为Wp=X×Z；在blocktoblock图上的BlockRank为Wb=Z×X。已经有人实现了块级别的PageRank和HITS算法，并通过实验证明，效率和准确率都比传统的对应算法要好。

4.2 基于网页内容的网页分析算法

基于网页内容的分析算法指的是利用网页内容（文本、数据等资源）特征进行的网页评价。网页的内容从原来的以超文本为主，发展到后来动态页面（或称为Hidden Web）数据为主，后者的数据量约为直接可见页面数据（PIW，Publicly Indexable Web）的400~500倍。另一方面，多媒体数据、Web Service等各种网络资源形式也日益丰富。因此，基于网页内容的分析算法也从原来的较为单纯的文本检索方法，发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。本节根据网页数据形式的不同，将基于网页内容的分析算法，归纳以下三类：第一种针对以文本和超链接为主的无结构或结构很简单的网页；第二种针对从结构化的数据源（如RDBMS）动态生成的页面，其数据不能直接批量访问；第三种针对的数据界于第一和第二类数据之间，具有较好的结构，显示遵循一定模式或风格，且可以直接访问。

二、爬虫抓取究竟是什么？

就是从网页中，提取出结构化数据。另外的特点，就是自动化，节省人力。通过访问网站然后获取到你想要的信息。

简要地说爬虫抓取的是数据或信息。根据不同的行业及应用，爬虫所抓取的数据各有不同的偏重，一般来说是业务需要那些数据，那抓取对应的数据回来，再经过清洗、转化等步骤促进业务增长与辅助决策。

抓取目标分类

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

1、基于目标网页特征

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：

（1）预先给定的初始抓取种子样本。

（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等。

（3）通过用户行为确定的抓取目标样例，分为：用户浏览过程中显示标注的抓取样本；通过用户日志挖掘得到访问模式及相关样本。

其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。

2、基于目标数据模式

基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

3、基于领域概念

另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。

三、怎么防止浏览网页以及网站中病毒和木马（谢绝不要进入不健康网站的回答）

权限是计算机应用中一个非常重要的概念，普通的用户在使用中可能早已淡化了权限的真正意义，每个人都在用admin级别的账号，同样，网络上的病毒、

木马

也和你一起分享这个权限，于是浏览器甚至是系统的灭顶之灾就在所难免了。

如果把IE运行权限降低，一些恶意网页的动作也就不能顺利完成了。

最简单的办法是换个身份运行IE，在CMD下运行命令“net user bigfrog 123456 /add”，建立一个用户名为bigfrog，密码为123456的受限帐户，以后使用这个帐户上网即可。

创建受限账户

接下来在桌面上建立一个IE快捷方式（使用IE快捷方式向导，不要使用桌面IE创建），右击快捷方式选择“运行方式”，在打开的运行身份窗口单选“下列用户”，然后输入上述受限帐户的名称和密码，单击“确定”，这样启动IE的用户就是受限帐户bigfrog。

这样再次运行IE等同于换一个身份后重新登录运行一样，原来用户的收藏夹、Cookies等并不会加载。同样，网络上的攻击也只针对这个账户为对象，和我们的admin系统是没有关系的。

现在你可以用受限用户身份来测试一下。比如你遇到一个恶意代码的网站，再次用bigfrog的IE登录一下，系统会提示没有权限更改配置。而对于那些捆绑了插件的网站，即使我们被强行

下载这个软件并安装，系统仍然会提示无法安装。

插件无法运行

对于权限限制的方式，我们在这里再引申一下，告诉大家知道运行的具体模式。其实系统是调用runas方式在模拟新用户的运行状态。比如输入“runas /user:bigfrog "C:\Program Files\Internet Explorer\IEXPLORE.EXE"”，一样可以达到效果，同理，我们可以把容易遭受攻击的程序都以这种方式运行。

上面的方法虽然不错，但最麻烦的地方就是创建用户，我们知道如果有很多用户的话，不但管理起来麻烦，而且很有可能带来更多的系统危机，这里推荐大家使用DropMyRights（

点击下载

）。

使用默认安装方式，具体的使用语法如下：DropMyRights [N|C|U]

path是指应用程序的路径，N指基本用户，C指受限用户，U是指不信任用户。如果要以受限用户身份运行IE浏览器，右击桌面IE的快捷方式，然后在属性窗口的“目标”框输入“"C:\DropMyRights\DropMyRights.exe" "C:\Program Files\Internet Explorer\IEXPLORE.EXE" C”，以后运行这个快捷方式就可以用受限用户身份运行IE。同样的，像OE、IM等病毒喜欢的对象，也可以用DropMyRights限制一下再运行。

四、机器学习有哪些算法

朴素贝叶斯分类器算法是最受欢迎的学习方法之一，按照相似性分类，用流行的贝叶斯概率定理来建立机器学习模型，特别是用于疾病预测和文档分类。它是基于贝叶斯概率定理的单词的内容的主观分析的简单分类。

什么时候使用机器学习算法 - 朴素贝叶斯分类器？

（1）如果您有一个中等或大的训练数据集。

（2）如果实例具有几个属性。

（3）给定分类参数，描述实例的属性应该是条件独立的。

A．朴素贝叶斯分类器的应用

（1）情绪分析 - 用于Facebook分析表示积极或消极情绪的状态更新。

（2）文档分类 - Google使用文档分类来索引文档并查找相关性分数，即PageRank。 PageRank机制考虑在使用文档分类技术解析和分类的数据库中标记为重要的页面。

（3）朴素贝叶斯算法也用于分类关于技术，娱乐，体育，政治等的新闻文章。

（4）电子邮件垃圾邮件过滤 - Google Mail使用NaïveBayes算法将您的电子邮件归类为垃圾邮件或非垃圾邮件。

B．朴素贝叶斯分类器机器学习算法的优点

（1）当输入变量是分类时，朴素贝叶斯分类器算法执行得很好。

（2）当朴素贝叶斯条件独立假设成立时，朴素贝叶斯分类器收敛更快，需要相对较少的训练数据，而不像其他判别模型，如逻辑回归。

（3）使用朴素贝叶斯分类器算法，更容易预测测试数据集的类。多等级预测的好赌注。

（4）虽然它需要条件独立假设，但是朴素贝叶斯分类器在各种应用领域都表现出良好的性能。

Python中的数据科学库实现NaïveBayes - Sci-Kit学习

数据科学图书馆在R实施朴素贝叶斯 - e1071

3.2 K均值聚类算法

K-means是用于聚类分析的普遍使用的无监督机器学习算法。 K-Means是一种非确定性和迭代的方法。该算法通过预定数量的簇k对给定数据集进行操作。 K Means算法的输出是具有在簇之间分割的输入数据的k个簇。

例如，让我们考虑维基百科搜索结果的K均值聚类。维基百科上的搜索词“Jaguar”将返回包含Jaguar这个词的所有页面，它可以将Jaguar称为Car，Jaguar称为Mac OS版本，Jaguar作为动物。 K均值聚类算法可以应用于对描述类似概念的网页进行分组。因此，算法将把所有谈论捷豹的网页作为一个动物分组到一个集群，将捷豹作为一个汽车分组到另一个集群，等等。

A．使用K-means聚类机学习算法的优点

（1）在球状簇的情况下，K-Means产生比层级聚类更紧密的簇。

（2）给定一个较小的K值，K-Means聚类计算比大量变量的层次聚类更快。

B．K-Means聚类的应用

K Means Clustering算法被大多数搜索引擎（如Yahoo，Google）用于通过相似性对网页进行聚类，并识别搜索结果的“相关率”。这有助于搜索引擎减少用户的计算时间。

Python中的数据科学库实现K均值聚类 - SciPy，Sci-Kit学习，Python包装

数据科学库中的R实现K均值聚类 - 统计

3.3 支持向量机学习算法

支持向量机是一种分类或回归问题的监督机器学习算法，其中数据集教导关于类的SVM，以便SVM可以对任何新数据进行分类。它通过找到将训练数据集分成类的线（超平面）将数据分类到不同的类中来工作。由于存在许多这样的线性超平面，SVM算法尝试最大化所涉及的各种类之间的距离，并且这被称为边际最大化。如果识别出最大化类之间的距离的线，则增加对未看见数据良好推广的概率。

A．SVM分为两类：

线性SVM - 在线性SVM中，训练数据，即分类器由超平面分离。

非线性SVM在非线性SVM中，不可能使用超平面来分离训练数据。例如，用于面部检测的训练数据由作为面部的一组图像和不是面部的另一组图像（换句话说，除了面部之外的所有其他图像）组成。在这种条件下，训练数据太复杂，不可能找到每个特征向量的表示。将面的集合与非面的集线性分离是复杂的任务。

B．使用SVM的优点

（1）SVM对训练数据提供最佳分类性能（精度）。

（2）SVM为未来数据的正确分类提供了更高的效率。

（3）SVM的最好的事情是它不对数据做任何强有力的假设。

（4）它不会过度拟合数据。

C．支持向量机的应用

（1）SVM通常用于各种金融机构的股票市场预测。例如，它可以用来比较股票相对于同一行业中其他股票的表现的相对表现。股票的相对比较有助于管理基于由SVM学习算法做出的分类的投资决策。

（2）Python中的数据科学库实现支持向量机-SciKit学习，PyML，SVMStruct Python，LIBSVM

（3）R中的数据科学库实现支持向量机 - klar，e1071

3.4 Apriori机器学习算法

Apriori算法是无监督机器学习算法，其从给定数据集生成关联规则。关联规则意味着如果项目A出现，则项目B也以一定概率出现。生成的大多数关联规则采用IF_THEN格式。例如，如果人们买了一个iPad，他们还买了一个iPad保护套。为了得到这样的结论的算法，它首先观察购买iPad的人购买iPad的人数。这样一来，比例就像100个购买iPad的人一样，85个人还购买了一个iPad案例。

A．Apriori机器学习算法的基本原理：

如果项集合频繁出现，则项集合的所有子集也频繁出现。

如果项集合不经常出现，则项集合的所有超集都不经常出现。

B．先验算法的优点

（1）它易于实现并且可以容易地并行化。

（2）Apriori实现使用大项目集属性。

C.Apriori算法应用

检测不良药物反应

Apriori算法用于关于医疗数据的关联分析，例如患者服用的药物，每个患者的特征，不良的不良反应患者体验，初始诊断等。该分析产生关联规则，其帮助识别患者特征和药物的组合导致药物的不良副作用。

市场篮子分析

许多电子商务巨头如亚马逊使用Apriori来绘制数据洞察，哪些产品可能是一起购买，哪些是最响应促销。例如，零售商可能使用Apriori预测购买糖和面粉的人很可能购买鸡蛋来烘烤蛋糕。

自动完成应用程序

Google自动完成是Apriori的另一个流行的应用程序，其中 - 当用户键入单词时，搜索引擎寻找人们通常在特定单词之后键入的其他相关联的单词。

Python中的数据科学库实现Apriori机器学习算法 - 在PyPi中有一个python实现Apriori

数据科学库在R中实现Apriori机器学习算法 – arules

3.5 线性回归机器学习算法

线性回归算法显示了2个变量之间的关系，以及一个变量中的变化如何影响另一个变量。该算法显示了在改变自变量时对因变量的影响。自变量被称为解释变量，因为它们解释了因变量对因变量的影响。依赖变量通常被称为感兴趣的因子或预测因子。

A．线性回归机器学习算法的优点

（1）它是最可解释的机器学习算法之一，使得它很容易解释给别人。

（2）它易于使用，因为它需要最小的调谐。

（3）它是最广泛使用的机器学习技术运行快。

B．线性回归算法应用

估计销售额

线性回归在业务中有很大的用途，基于趋势的销售预测。如果公司每月的销售额稳步增长 - 对月度销售数据的线性回归分析有助于公司预测未来几个月的销售额。

风险评估

线性回归有助于评估涉及保险或金融领域的风险。健康保险公司可以对每个客户的索赔数量与年龄进行线性回归分析。这种分析有助于保险公司发现，老年顾客倾向于提出更多的保险索赔。这样的分析结果在重要的商业决策中起着至关重要的作用，并且是为了解决风险。

Python中的数据科学库实现线性回归 - statsmodel和SciKit

R中的数据科学库实现线性回归 - 统计

3.6 决策树机器学习算法

你正在制作一个周末计划，去访问最好的餐馆在城里，因为你的父母访问，但你是犹豫的决定在哪家餐厅选择。每当你想去一家餐馆，你问你的朋友提利昂如果他认为你会喜欢一个特定的地方。为了回答你的问题，提利昂首先要找出，你喜欢的那种餐馆。你给他一个你去过的餐馆列表，告诉他你是否喜欢每个餐厅（给出一个标记的训练数据集）。当你问提利昂你是否想要一个特定的餐厅R，他问你各种问题，如“是”R“屋顶餐厅？”，“餐厅”R“服务意大利菜吗？”，现场音乐？“，”餐厅R是否营业至午夜？“等等。提利昂要求您提供几个信息问题，以最大限度地提高信息收益，并根据您对问卷的答案给予YES或NO回答。这里Tyrion是你最喜欢的餐厅偏好的决策树。

决策树是一种图形表示，其使用分支方法来基于某些条件来例示决策的所有可能的结果。在决策树中，内部节点表示对属性的测试，树的每个分支表示测试的结果，叶节点表示特定类标签，即在计算所有属性之后作出的决定。分类规则通过从根到叶节点的路径来表示。

A．决策树的类型

（1）分类树 - 这些被视为用于基于响应变量将数据集分成不同类的默认种类的决策树。这些通常在响应变量本质上是分类时使用。

（2）回归树 - 当响应或目标变量是连续或数字时，使用回归树。与分类相比，这些通常用于预测类型的问题。

根据目标变量的类型 - 连续变量决策树和二进制变量决策树，决策树也可以分为两种类型。它是有助于决定对于特定问题需要什么样的决策树的目标变量。

B．为什么选择决策树算法？

（1）这些机器学习算法有助于在不确定性下作出决策，并帮助您改善沟通，因为他们提供了决策情况的可视化表示。

（2）决策树机器学习算法帮助数据科学家捕获这样的想法：如果采取了不同的决策，那么情境或模型的操作性质将如何剧烈变化。

（3）决策树算法通过允许数据科学家遍历前向和后向计算路径来帮助做出最佳决策。

C．何时使用决策树机器学习算法

（1）决策树对错误是鲁棒的，并且如果训练数据包含错误，则决策树算法将最适合于解决这样的问题。

（2）决策树最适合于实例由属性值对表示的问题。

（3）如果训练数据具有缺失值，则可以使用决策树，因为它们可以通过查看其他列中的数据来很好地处理丢失的值。

（4）当目标函数具有离散输出值时，决策树是最适合的。

D.决策树的优点

（1）决策树是非常本能的，可以向任何人轻松解释。来自非技术背景的人，也可以解释从决策树绘制的假设，因为他们是不言自明的。

（2）当使用决策树机器学习算法时，数据类型不是约束，因为它们可以处理分类和数值变量。

（3）决策树机器学习算法不需要对数据中的线性进行任何假设，因此可以在参数非线性相关的情况下使用。这些机器学习算法不对分类器结构和空间分布做出任何假设。

（4）这些算法在数据探索中是有用的。决策树隐式执行特征选择，这在预测分析中非常重要。当决策树适合于训练数据集时，在其上分割决策树的顶部的节点被认为是给定数据集内的重要变量，并且默认情况下完成特征选择。

（5）决策树有助于节省数据准备时间，因为它们对缺失值和异常值不敏感。缺少值不会阻止您拆分构建决策树的数据。离群值也不会影响决策树，因为基于分裂范围内的一些样本而不是准确的绝对值发生数据分裂。

E.决策树的缺点

（1）树中决策的数量越多，任何预期结果的准确性越小。

（2）决策树机器学习算法的主要缺点是结果可能基于预期。当实时做出决策时，收益和产生的结果可能与预期或计划不同。有机会，这可能导致不现实的决策树导致错误的决策。任何不合理的期望可能导致决策树分析中的重大错误和缺陷，因为并不总是可能计划从决策可能产生的所有可能性。

（3）决策树不适合连续变量，并导致不稳定性和分类高原。

（4）与其他决策模型相比，决策树很容易使用，但是创建包含几个分支的大决策树是一个复杂和耗时的任务。

（5）决策树机器学习算法一次只考虑一个属性，并且可能不是最适合于决策空间中的实际数据。

（6）具有多个分支的大尺寸决策树是不可理解的，并且造成若干呈现困难。

F.决策树机器学习算法的应用

（1）决策树是流行的机器学习算法之一，它在财务中对期权定价有很大的用处。

（2）遥感是基于决策树的模式识别的应用领域。

（3）银行使用决策树算法按贷款申请人违约付款的概率对其进行分类。

（4）Gerber产品公司，一个流行的婴儿产品公司，使用决策树机器学习算法来决定他们是否应继续使用塑料PVC（聚氯乙烯）在他们的产品。

（5）Rush大学医学中心开发了一个名为Guardian的工具，它使用决策树机器学习算法来识别有风险的患者和疾病趋势。

Python语言中的数据科学库实现决策树机器学习算法是 - SciPy和Sci-Kit学习。

R语言中的数据科学库实现决策树机器学习算法是插入符号。

3.7 随机森林机器学习算法

让我们继续我们在决策树中使用的同样的例子，来解释随机森林机器学习算法如何工作。提利昂是您的餐厅偏好的决策树。然而，提利昂作为一个人并不总是准确地推广你的餐厅偏好。要获得更准确的餐厅推荐，你问一对夫妇的朋友，并决定访问餐厅R，如果大多数人说你会喜欢它。而不是只是问Tyrion，你想问问Jon Snow，Sandor，Bronn和Bran谁投票决定你是否喜欢餐厅R或不。这意味着您已经构建了决策树的合奏分类器 - 也称为森林。

你不想让所有的朋友给你相同的答案 - 所以你提供每个朋友略有不同的数据。你也不确定你的餐厅偏好，是在一个困境。你告诉提利昂你喜欢开顶屋顶餐厅，但也许，只是因为它是在夏天，当你访问的餐厅，你可能已经喜欢它。在寒冷的冬天，你可能不是餐厅的粉丝。因此，所有的朋友不应该利用你喜欢打开的屋顶餐厅的数据点，以提出他们的建议您的餐厅偏好。

通过为您的朋友提供略微不同的餐厅偏好数据，您可以让您的朋友在不同时间向您询问不同的问题。在这种情况下，只是稍微改变你的餐厅偏好，你是注入随机性在模型级别（不同于决策树情况下的数据级别的随机性）。您的朋友群现在形成了您的餐厅偏好的随机森林。

随机森林是一种机器学习算法，它使用装袋方法来创建一堆随机数据子集的决策树。模型在数据集的随机样本上进行多次训练，以从随机森林算法中获得良好的预测性能。在该整体学习方法中，将随机森林中所有决策树的输出结合起来进行最终预测。随机森林算法的最终预测通过轮询每个决策树的结果或者仅仅通过使用在决策树中出现最多次的预测来导出。

例如，在上面的例子 - 如果5个朋友决定你会喜欢餐厅R，但只有2个朋友决定你不会喜欢的餐厅，然后最后的预测是，你会喜欢餐厅R多数总是胜利。

A.为什么使用随机森林机器学习算法？

（1）有很多好的开源，在Python和R中可用的算法的自由实现。

（2）它在缺少数据时保持准确性，并且还能抵抗异常值。

（3）简单的使用作为基本的随机森林算法可以实现只用几行代码。

（4）随机森林机器学习算法帮助数据科学家节省数据准备时间，因为它们不需要任何输入准备，并且能够处理数字，二进制和分类特征，而无需缩放，变换或修改。

（5）隐式特征选择，因为它给出了什么变量在分类中是重要的估计。

B.使用随机森林机器学习算法的优点

（1）与决策树机器学习算法不同，过拟合对随机森林不是一个问题。没有必要修剪随机森林。

（2）这些算法很快，但不是在所有情况下。随机森林算法当在具有100个变量的数据集的800MHz机器上运行时，并且50,000个案例在11分钟内产生100个决策树。

（3）随机森林是用于各种分类和回归任务的最有效和通用的机器学习算法之一，因为它们对噪声更加鲁棒。

（4）很难建立一个坏的随机森林。在随机森林机器学习算法的实现中，容易确定使用哪些参数，因为它们对用于运行算法的参数不敏感。一个人可以轻松地建立一个体面的模型没有太多的调整