分类算法(分类算法包括哪些算法)
大家好!今天让创意岭的小编来大家介绍下关于分类算法的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、12-分类算法-决策树、随机森林
决策树
生活中的决策树模型:
显然:判断依据的重要性从前往后越来越小
信息的度量和作用
在不知道任何信息的情况下猜测32支球队中的冠军:如果用二分法,需要猜5次,即需要的代价为5bit,这个5bit我们称之为信息熵(H)
5 = -(1/32log(1/32) + 1/32log(1/32) + ... + 1/32log(1/32))
公式:概率log概率 之和
如果我们知道了一些球队的信息,需要的代价会小于5bit
5 > -(1/4log(1/32) + 1/8log(1/32) + ... + 1/24log(1/32))
信息熵越大(比如,当每个球队的夺冠几率相等),不确定性越大
结合决策数,之所以我们先对某些条件进行判断,是因为能够减少我们更多的不确定性
决策树的划分依据——信息增益
信息增益:当得知一个条件之后,减少的信息熵的大小
决策树的api
在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息,但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。
我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。
其中age数据存在缺失。
决策树部分图例:
决策树的优缺点以及改进
优点:
缺点:
改进:
集成学习方法
集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是 生成多个分类器/模型 ,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
随机森林建立多个决策树的过程:
ps:为什么要随机抽样?避免每颗树的训练集的一样,那么最终训练出的上面的分类结果也是完全一样的
随机森林案例:
随机森林的优点:
随机森林几乎没有缺点
二、算法有哪些分类
(一)基本算法 : 1.枚举 2.搜索: 深度优先搜索 广度优先搜索 启发式搜索 遗传算法 (二)数据结构的算法 (三)数论与代数算法 (四)计算几何的算法:求凸包 (五)图论 算法: 1.哈夫曼编码 2.树的遍历 3.最短路径 算法 4.最小生成树 算法 5.最小树形图 6.网络流 算法 7.匹配算法 (六)动态规划 (七)其他: 1.数值分析 2.加密算法 3.排序 算法 4.检索算法 5.随机化算法
三、常见的场景分类算法有哪些
【嵌牛导读】:本文主要介绍一些常见的基于深度学习的场景分类
【嵌牛鼻子】:深度学习,场景分类
【嵌牛提问】:基于深度学习的常见分类算法有哪些?
【嵌牛正文】:
目前出现的相对流行的场景分类方法主要有以下三类:
这种分类方法以对象为识别单位,根据场景中出现的特定对象来区分不同的场景;
基于视觉的场景分类方法大部分都是以对象为单位的,也就是说,通过识别一些有
代表性的对象来确定自然界的位置。典型的基于对象的场景分类方法有以下的中间步骤:
特征提取、重组和对象识别。
缺点:底层的错误会随着处理的深入而被放大。例如,上位层中小对象的识别往往会受到下属层
相机传感器的原始噪声或者光照变化条件的影响。尤其是在宽敞的环境下,目标往往会非常分散,
这种方法的应用也受到了限制。需要指出的是,该方法需要选择特定环境中的一些固定对
象,一般使用深度网络提取对象特征,并进行分类。
除了传统的卷积层、pooling层、全连接层。AlexNet加入了
(1)非线性激活函数:ReLU;
(2)防止过拟合的方法:Dropout,Dataaugmentation。同时,使用多个GPU,LRN归一化层。
不同于AlexNet的地方是:VGG-Net使用更多的层,通常有16-19层,而AlexNet只有8层。
同时,VGG-Net的所有 convolutional layer 使用同样大小的 convolutional filter,大小为 3 x 3。
提出的Inception结构是主要的创新点,这是(Network In Network)的结构,即原来的结点也是一个网络。
在单层卷积层上使用不同尺度的卷积核就可以提取不同尺寸的特征,单层的特征提取能力增强了。其使用之后整个网络结构的宽度和深度都可扩大,能够带来2-3倍的性能提升。
ResNet引入了残差网络结构(residual network),通过在输出与输入之间引入一个shortcut connection,而不是简单的堆叠网络,这样可以解决网络由于很深出现梯度消失的问题,从而可可以把网络做的很深。这种方法目前也是业界最高水准了。
首先通过目标候选候选区域选择算法,生成一系列候选目标区域,
然后通过深度神经网络提取候选目标区域特征,并用这些特征进行分类。
技术路线:selective search + CNN + SVMs
算法:Fast-R-CNN
步骤:输入一幅图像和Selective Search方法生成的一系列Proposals,通过一系列卷积层
和Pooling层生成feature map,然后用RoI(region ofineterst)层处理最后一个卷积层
得到的feature map为每一个proposal生成一个定长的特征向量roi_pool5。
RoI层的输出roi_pool5接着输入到全连接层, 产生最终用于多任务学习的特征并用于
计算多任务Loss。
全连接输出包括两个分支:
1.SoftMax Loss:计算K+1类的分类Loss函数,其中K表示K个目标类别。
2.RegressionLoss:即K+1的分类结果相应的Proposal的Bounding Box四个角点坐标值。
最终将所有结果通过非极大抑制处理产生最终的目标检测和识别结果。
Faster-R-CNN算法由两大模块组成:1.PRN候选框提取模块 2.Fast R-CNN检测模块。
其中,RPN是全卷积神经网络,通过共享卷积层特征可以实现proposal的提取;
FastR-CNN基于RPN提取的proposal检测并识别proposal中的目标。
这类方法不同于前面两种算法,而将场景图像看作全局对象而非图像中的某一对象或细节,
这样可以降低局部噪声对场景分类的影响。
将输入图片作为一个特征,并提取可以概括图像统计或语义的低维特征。该类方法的目的
即为提高场景分类的鲁棒性。因为自然图片中很容易掺杂一些随机噪声,这类噪声会对
局部处理造成灾难性的影响,而对于全局图像却可以通过平均数来降低这种影响。
基于上下文的方法,通过识别全局对象,而非场景中的小对象集合或者准确的区域边界,
因此不需要处理小的孤立区域的噪声和低级图片的变化,其解决了分割和目标识别分类方法遇到的问题。
步骤:通过 Gist 特征提取场景图像的全局特征。Gist 特征是一种生物启发式特征,
该特征模拟人的视觉,形成对外部世界的一种空间表
示,捕获图像中的上下文信息。Gist 特征通过多尺度
多方向 Gabor 滤波器组对场景图像进行滤波,将滤波后
的图像划分为 4 × 4 的网格,然后各个网格采用离散傅
里叶变换和窗口傅里叶变换提取图像的全局特征信息。
四、时间序列分类算法
欧式距离不能很好地针对时间序列的波动模式进行分类,研发更适合时间序列分类的距离度量就成为关键,这其中最经典的时间序列距离度量就是Dynamic Time Warping (DTW)。 DTW的原理如下:
比如说,给定一个样本序列X和比对序列Y,Z:
X:3,5,6,7,7,1
Y:3,6,6,7,8,1,1
Z:2,5,7,7,7,7,2
请问是X和Y更相似还是X和Z更相似?
DTW首先会根据序列点之间的距离(欧氏距离),获得一个序列距离矩阵 MM,其中行对应X序列,列对应Y序列,矩阵元素为对应行列中X序列和Y序列点到点的欧氏距离:
DTW通过对时间序列波动模式的分析可得到更好的时间序列分类结果。研究表明,在时间序列分类问题上,DTW距离度量配合简单的最小距离分类法(nearest neighbor)就可以取得较传统欧式距离算法(如SVM、经典多层神经网络、决策树、Adaboost)压倒性的优势。
DTW更进一步衍生出多种不同的变种,例如由Keogh和 Pazzani 提出的基于序列一阶导数的改进便取得了良好的效果;其中一种简单的方法叫Complexity Invariant distance (CID),其利用一阶导数信息对DTW距离做计算,在某些问题上具有突出效果。
除了DTW,还有其他考量时间序列的波动模式算法。例如Ye 和Keogh提出的Shapelet方法:考察序列中具有代表意义的子序列来作为Shapelet特征而进行分类。Lin等人提出了基于字典的方法,将序列根据特定的字典转化为词序列,从而进行分类。Deng提出了基于区间的方法,从区间中提取波动的特征。
除了上述方法外,聚合算法(将多种不同算法聚合在一起)的研究也有了长足的进步。最近提出的COTE算法几乎将上述所有不同分类算法聚合在一起,得到了优异的分类效果。
这一类的方法都是一些通过某种度量关系来提取相关特征的方法,如词袋法,通过找到该时间序列中是否有符合已有词袋中的特征(序列的样子),将一个序列用词来表示,再对词进行分类。而其他的基于特征的方法都是利用了类似的方法,如提取统计量,基于规则等,再通过分类模型进行分类。
1、MLP、FCN、ResNet
MLP的输入是一个向量(数组),通过全连接的形式对整体数组的每一个元素逐层赋予权重,并求得最后的分类,这种方法是一种比较粗暴的学习方法,直接学习所有元素直接的线性或非线性相关关系,但是并没有去深度挖掘数组中更好的表现特征,分类效果不佳。
FCN是将MLP中的全链接层用卷积层进行替代,Resnet也是,但是其中的卷积层都用一维卷积核进行了替代。
来自于Time Series Classifification from Scratch with Deep Neural Networks: A Strong Baseline.可以看到深度学习的方法效果基本上与传统方法相接近,甚至有所超过,其中整体表现最好的是FCN。
LSTM_FCN的方法比较简单,是将输入分别输入到两个分支中,LSTM和FCN,并在最后将两个输出分支进行concat进行softmax获得分类结果。在这篇论文中,作者说这种方法取得了比FCN更好的效果。
在其他的一些比赛方案中,也有resnet+LSTM+FC的组合形式,通过Resnet的一维卷积先提取相关特征,然后通过LSTM学习一维特征向量的相关关系,再进行分类,可能针对于不同的问题还是要试试才知道哪个的效果更加好。
BiGRU-CNN与以上方法相比实际上并没有做什么大的改进,就是将LSTM分支替换成双向的GRU分支。
以上就是关于分类算法相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: