开发工具:
文件大小: 305kb
下载次数: 0
上传时间: 2019-07-02
详细说明:机器学习算法基础学习总结2.基本算法
2.1 Logistic回归
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高
适用数据类型:数值型和标称型数据。
类别:分类算法。
试用场景:解决二分类问题。
简述: Logistic回归算法基于 Sigmoid函数,或者说 Sigmoid就是逻辑回归函数。
Sigmoid函数定义如下:1/(1-exp(-z))。函数值域范围(0,1)。可以用来做分
类器。
Sigmoid函数的函数曲线如下:
逻辑凹归模型分解如下:(1)首先将不同维度的属性值和对应的一组权重加和
公式如下:z=w0+w1x1+w2x2+.Wm*xm。(其中x1,x2,.,xm是某样本数据
的各个特征,维度为m)
ps:这里就是一个线性回归。W权重值就是需要绎过训练学习到的数值,具体W向
量的求解,就需要用到极大似然估计和将似然估计函数代入到优化算法来求
解。最常用的最后化算法有梯度上升算法。
由上面可见:逻辑回归函数虽然是一个非线性的函数,但其实其去除 Sigmoid映
射函数之后,其他步骤都和线性回归一致
(2)然后将上述的线性目标函数z代入到 sigmond逻辑回归函数,可以得到值域
为(0,0.5)和(0.5,1)两类值,等于0.5的怎么处理还以自己定。这样其实就得
到了2类数据,也就休现了二分类的概念
总结: Logistic回归的目的是寻找一个非线性函数 Sigmoid的最佳拟合参数,参
数的求解过程可以由最优化算法来完成。在最优化算法中,最常用的就是梯度上
升算法,而梯度上升算法有可以简化为随机悌度上升算法。
2.2SWM( Support vector machines)支持向量机:
优点:泛化错误率低,计算开销不大,结果易解释。
缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二分
类问题
适用数据类型:数值型和标称型数据。
类别:分类算法
试用场景:解决二分类问题。
简述:通俗的讲,SⅦ是一种二类分类模型,其基本模型定义为特征空间上的间
隔最大的线性分类器,即攴持问量机的学习策略便是间隔最大化,最终可转化为
个凸二次规划问题的求解。或者简单的可以理解为就是在高维空间中寻找一个
合理的超平面将数据点分隔开来,其中涉及到非线性数据到高维的映射以达到数
据线性可分的目的。
支持向量概念:
上面样本图是一个特殊的二维情况,真实情况当然可能是很多维。先从低纬度简
单理解一下什么是支持向量。从图中可以看到3条线,中间那条红色的线到其他
两条先的距离相等。这条红色的就是SM在二维情况下要寻找的超平面,用于二
分类数据。而支撑另外两条线上的点就是所谓的支持向量。从图中可以看到,中
问的超平面和另外两条线中问是没有样木的。找到这个超平面后,利用超平面的
数据数学表小来对样本数据进行二分类,就是SWM的机制了。
ps:《机器学习实战》书中有这么几个概念:
(1)如果能找到一个直线(或多维的面)将样本点分开,那么这组数据就是线性
可分的。将上述数据集分隔开来的直线(或多维的面)称为分隔超平面。分布在超
平面一侧的数据属于一个类别,分布在超平面另一侧的数据属于另一个类别
(2)支持向量( Support vector)就是分离超平面最近的那些
(3)几乎所有分类问题都可以使用SVM,值得一提的是,SWM本身是一个二分类分
类器,对多类问题应用S硎M需要对代码做一些修改。
公式
SM有很多实现,但是本章值关注其中最流行的一种实现,及序列最小优化
( Sequential Minimal0 ptimization,SMO)算法
其公式如下:
SMO算法的目标是求出一些列的 alpha,一旦求出了 alpha,就很容易计算出权重
向量w并得到分隔超平面
SMO算法的工作原理是:每次循环中选择两个 alpha进行优化处理。一旦找到一对
合适的 alpha,那么就增大其中一个同时减小另一个。这里所谓的“合适”就是
指两个 alpha必须符合一定的条件,条件之一就是这两个apha必须要在间隔边界
之外,而其第二个条件则是这两个a1pha还没有进行过区间化处理或者不在边界
核函数将数据从低维度映射到高维
S硎M是通过寻找超平面将数据进行分类的,但是当数据不是线性可分的时候就需
要利用核函数将数据从低维映射到高维使其线性可分后,在应用SWM理论。
小例
这个二维数据分布不是线性可分的,其方程为:
但是通过核函数维度映射后,其变为
对应的方程为
这样映射后的数据就变成了线性可分的,就可以应用SWM理论了。
总结:支持向量机是一种分类器。之所以成为“机”是因为他会产生一个二值决
策结果,即它是一种‘决策’札。核方法或者说核技巧会将数据(有时是非线性
数据)从一个低维空间映射到一个高维空间,可以将一个在低维空间中的非线性
冋题转换为高维空间下的线性问题来求解
2.3决策树
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理
不相关特征数据
缺点:可能会产生匹配过度问题
适用数据类型:数值型和标称型。
算法类型:分类算法。
数据要求:树的构造只适用于标称型的数据,因此数值型数据必须离散化
简述:在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特
征在划分数据分类时起决定性作用。为了找到决定性特征,划分出最好的结果,
我们必须评估每个特征。完成测试后,原始数据就被划分为几个数据子集。这些
数据的子集分布在第一个决策点的所有分支上,如果某个分支下的数据属于同
个类型,则无需进一步对数据集进行切割。反之则需要进一步切割。
创建分支的伪代码如下:
检测数据集中的每个子项是否属于同一分类:
if so return类标签
寻找数据集的最好特征
划分数据集
创建分支结点
for每个划分的子集
调用函数 createBranch并增加返回结果到分支结点中
return分艾结点
在可以评测哪种数据划分方式是最好的数据划分之前,我们必须学习如何计算信
息增益。集合的信息度量方式称为香农熵或者简称为熵。熵在信息论中定义为信
息的期望值
信息熵的计算公式为:
H(信息熵)=-∑P(xi)log2P(xi)ps:其中p(xi)表示选择该分类的概
率
下面简述一下生成决策树的步骤:
(1)根据给定的训练数据,根据熵最大原则根据每一个维度来划分数据集,找到
最关键的维度。
(2)当某个分支下所有的数据都数据同分类则终止划分并返回类标签,否则在
此分支上重复实施(1)过程。
(3)依次计算就将类标签构建成了一棵抉择树。
(4)依靠训练数据构造了决策树之后,我们就可以将它用于实际数据的分类
ps:当然生成决策树的算法不止这一个,还有其他一些生成决策树的方法,比
如:C4.5和CART。
结:
决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集
时,我们首先需要测量集合中数据的不一孜性,也就是熵,然后寻找最优的方案
划分数据集,直到数据集中的所冇数据属于同一个分类
2.4朴素贝叶斯:
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感。
适用的数据类型:标称型数据。
算法类型:分类算法
简述:朴紊贝叶斯是贝叶斯理论的一部分,贝叶斯决策理论的核心思想,即选择
具有高概率的决策。朴素贝叶斯之所以冠以朴素开头,是因为其在贝叶斯理论的
基础上做出了两点假设:
(1)每个特征之间相互独立。
(2)每个特征同等重要。
贝叶斯准则是构建在条件概率的基础之上的,其公式如下
P(H X)=P (X H)P (H)/P(X)
ps:P(HX)是根据X参数值判断其属于类别的概率,称为后验概率。P(H是
直接判断某个样本属于H的概率,称为先验概率。P(X田是在类别H观测到X的
概率(后验概率),P(X)是在数据库中观测到X的概率。可见贝叶斯准则是基于
条件概率并且和观测到样本的先验概率和后验概率是分不开的
总结:对于分类而言,使用概率有事要比使用硬规则更为有效。贝叶斯概率及贝
叶斯准则提供了一种利用已知值来估计未知概率的有效方法。可以通过特征之间
的条件独立性假设,降低对数据量的需求。尽管条件独立性的假设并不正确,但
是朴素贝叶斯仍然是一种有效的分类器
2.5K-近邻算法(KNN):
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高,空间复杂度搞。
适用数据范围:数值型和标称型。
算法类型:分类算法。
简述:算法原理,存在一个样木数据集合,也称作训练样木集,并且样木集中每
个数据都行在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输
入没有标签的新数据后,将新数据的每个特征和样木集中数据对应的特征进行比
较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,
我们只选择样本数据集中前k个最相似的数据,这就是k近邻算法中k的出处,通
常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类,作为新
数据的分类。
2.6线性回归( Linear Regression):
优点:结果易于理解,计算上不复杂。
缺点:对非线性数据拟合不好
适用数据类型:数值型和标称型数据。
算法类型:回归算法
ps:回归于分类的不同,就在于其目标变量时连续数值型。
简述:在统计学中,线性回归( Linear regression)是利用称为线性回归方程
的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分
析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是
次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元
回归
线性方程的模型函数的向量表示形式为:
通过训练数据集寻找向量系数的最优解,即为求解模型参数。其中求解模型系数
的优化器方法可以用“最小二乘法”、“梯度下降”算法,来求解损失函数:
的最优值。
附加:岭回归( ridge regression):
岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的
最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为
代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远
远强于最小二乘法
岭回归分析法是从根本上消除复共线性影响的统计方法。岭回归模型通过在相关
矩阵中引入一个很小的岭参数K(1K>0),并将它加到主对角线元素上,从而降
低参数的最小二乘估计中复共线特征向量的影响,减小复共线变量系数最小二乘
估计的方法,以保证参数估计更接近真实情况。岭回归分析将所冇的变量引入模
型中,比逐步回归分析提供更多的信息。
总结:与分类一样,回归也是预测目标值的过程。回归与分类的不同点在于,前
者预测连续型的变量,而后者预测离散型的变量。回归是统计学中最有力的工具
之一。在回归方程甲,求得特征对应的最佳回归系统的方法是最小化误差的平方
和。
2.7树回归:
优点:可以对复杂和非线性的数据建模
缺点:结果不易理解
适用数据类型:数值型和标称型数据
算法类型:回归算法。
简述:线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当
数据拥有众多特征并且特征之间关系分复杂时,构建全局模型的回归算法是比
较困难的。此外,实际中很多问题为非线性的,例如常见的分段函数,不可能用
仝局线性模型类进行拟合。树回归将薮据集切分成多份易建模的数据,然后利用
线性回归进行建模和拟合。较为经典的树回归算法为CART( classification and
regresion trcs分类回归树)。
CART算法的详细描述可以看这篇文章
http://box.cloudtaobaocom/filc/downloadfilc.htm?sharclink-1glqrkng
(说实话,大休了解,看的不太懂,谁了解的比较透彻可以分享下)
2.8K- Means(K均值算法):
优点:容易实现。
缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢.
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.