《机器学习的经典代表算法总结.docx》由会员分享,可在线阅读,更多相关《机器学习的经典代表算法总结.docx(4页珍藏版)》请在第一文库网上搜索。
1、机器学习的经典代表算法总结AdaBoostAdaptiveBoosting或称为AdaBoost,是多种学习算法的融合。它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最终的决策分类器。AdaBoost是最常用的算法,它可用于回归或者分类算法。相比其他机器学习算法,它克服了过拟合的问题,
2、通常对异常值和噪声数据敏感。为了创建一个强大的复合学习器,AdaBoost使用了多次迭代。因此,它又被称为AdaptiveBoostingo通过迭代添加弱学习器,AdaBoost创建了一个强学习器。一个新的弱学习器加到实体上,并且调整加权向量,作为对前一轮中错误分类的样例的回应。得到的结果,是一个比弱分类器有更高准确性的分类器。AdaBoost有助于将弱阈值的分类器提升为强分类器。上面的图像描述了AdaBoost的执行,只用了简单易于理解的代码并且在一个文件中就实现了。这个函数包含一个弱分类器和boosting组件。弱分类器在一维的数据中尝试去寻找最理想的阈值来将数据分离为两类。boostin
3、g组件迭代调用分类器,经过每一步分类,它改变了错误分类示例的权重。因此,创建了一个级联的弱分类器,它的行为就像一个强分类器。目前,对AdabOoSt算法的研究以及应用大多集中于分类问题,同时近年也出现了一些在回归问题上的应用。AdabOOSt系列主要解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题和回归问题。它用全部的训练样本进行学习。K-均值算法(K-Means)K-均值是著名聚类算法,它找出代表聚类结构的k个质心。如果有一个点到某一质心的距离比到其他质心都近,这个点则指派到这个最近的质心所代表的簇。依次,利用当前已聚类的数据点找出一个新质心,再利用质心给新的数据指派一个簇。
4、支持向量机(SVM)支持向量机(SUPPOrtVectorMaChine,SVM)是一类按监督学习(supervised1earning)方式对数据进行二元分类(binaryc1assification)的广义线性分类器(genera1ized1inearc1assifier),其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperp1ane)o基本思想是:找到集合边缘上的若干数据(称为支持向量(SUPPortVector),用这些点找出一个平面(称为决策面),使得支持向量到该平面的距离最大。由简至繁的SVM模型包括:1)当训练样本线性可分时,通过硬间隔最大化,学习
5、一个线性可分支持向量机;2)当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;3)当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机;在分类问题中,很多时候有多个解,在理想的线性可分的情况下其决策平面会有多个。而SVM的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大,SVM算法计算出来的分界会保留对类别最大的间距,即有足够的余量。在解决线性不可分问题时,它通过引入核函数巧妙地解决在高维空间中的内积运算,从而很好地解决了非线性分类问题。通过核函数的引入,将线性不可分的数据映射到一个高纬的特征空间内,使得数据在特征空间内是可分的。人
6、工神经网络ANN(ArtifiCiaINeura1Network)人工神经网络ANN(Artificia1Neura1Network)是由大量处理单元互联组成的非线性、自适应信息处理系统。它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。其基本过程可以概述如下:外部刺激通过神经末梢转化为电信号,传导到神经细胞(又叫神经元);无数神经元构成神经中枢;神经中枢综合各种信号,做出判断;人体根据神经中枢的指令,对外部刺激做出反应。人工神经网络经历了漫长的发展阶段。最早是上个世纪六十年代提出的“人造神经元”模型,叫做“感知器”(PerCePtrOn)。感知机模型是机器学习二分类问题
7、中的一个非常简单的模型。随着反向传播算法、最大池化(max-poo1ing)等技术的发明,神经网络进入了飞速发展的阶段。神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入。典型的人工神经网络具有以下三个部分:结构(ArChiteCtUre)指定了网络中的变量和它们的拓扑关系。激励函数(ACtiVityRu1e)大部分神经网络模型具有一个短时间尺度的动力学规则,来定义神经元如何根据其他神经元的活动来改变自己的激励值。学习规则(1earningRU1e)指定了网络中的权重如何随着时间推进而调整。人工神经网络具有四个基本特征:非线性、非局限性、非常定性和非凸性。人工神经网络的特点和优越性,主要表现在三个方面:具有自学习功能、具有联想存储功能和具有高速寻找最优解的能力。