1、人工智能导论人工智能导论北邮人工智能学院: 龚萍2020-2021第二章 机器学习理论与方法机器学习方法概论机器学习的主要方法线性回归逻辑回归感知机支持向量机决策树集成学习神经网络贝叶斯分类第二章 机器学习理论与方法 机器学习方法概论 机器学习的主要方法线性回归逻辑回归感知机支持向量机决策树集成学习神经网络 贝叶斯分类4线性回归Linear Basis Function Model举城市房屋价格为例,假设有一个房屋销售的数据如下:(面积,售价)(123,250)、(150,320)、(87,160)、(102,220)如果来了一个新的面积,假设在销售价格的记录中没有,如何预测售价?我们可以用一
2、条曲线去尽量拟合这些数据,然后有新的输入面积,可以将曲线上这个点对应的值返回,图中绿色的点就是我们想要预测的点。线性回归Generallywhere j(x) are known as basis functions.Typically, 0(x) = 1, so that w0acts as a bias.In the simplest case, we use linear basis functions : d(x) = xd.线性回归Polynomial basis functions:These are global; a small change in x affect all b
3、asis functions.Gaussian basis functions:These are local; a small change in x only affect nearby basis functions. jand s control location and scale (width).线性回归Sigmoidal basis functions:whereAlso these are local; a small change in x only affect nearby basis functions. jand s control location and scal
4、e (slope).固定基函数固定基函数Two Gaussian basis functions 1(x) and 2(x)Two Gaussian basis functions 1(x) and 2(x)9线性回归线性回归给定数据集 = 1,1, 2,2,(,),其中=1;2;, ,“线性回归”试图学得一个线性模型以尽可能准确地预测y. = + ,使得() 如何确定w和b呢?关键在于如何衡量f(x)与y之间地差别。均方误差均方误差是回归任务中最常见的性能度量,因此我们可试图让均方误差最小化,即,= (,)=( )= (,)=( )基于均方误差最小化来进行模型求解的方法称为“最小二乘法”“最
5、小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。10线性回归线性回归求解w和b使(,)= =1( )2最小化的过程,称为线性回归模型的最小二乘“参数估计最小二乘“参数估计”。我们可将(,)对w和b求导,得到(,)= = = ,(,)= =( ) ,将其令为零可得到w和b最优解的闭式解 =( )=(=), =( ),其中 =1=1为x的均值。11对数线性回归对数线性回归那可否令模型预测值逼近y的衍生物呢?譬如说,假设我们认为样本所对应的输出变量是在指数尺度上变化,那就可将输出变量的对数作为线性模型逼近的目标,即 = + .这就是“对数线性回归”“对
6、数线性回归”,试图让+逼近y,是输入空间到输出空间的非线性函数映射。这里的对数函数起到了将线性回归模型的预测值与真实标记联系起来的作用。第二章 机器学习理论与方法 机器学习方法概论 机器学习的主要方法线性回归模型逻辑回归模型感知机支持向量机模型集成学习神经网络模型 贝叶斯分类14逻辑回归逻辑回归LRLR考虑二分类任务,其输出变量 0,1 ,而线性回归模型产生的预测值z = + 是实值,于是,我们需将实值z转换为0/1值。最理想的是“单位阶跃函数” = 0, 1,即若预测值z大于0就判为正样本,小于0则判为反样本,预测值为临界值零则可任意判别。15逻辑回归逻辑回归LRLR但单位阶跃函数不连续,我
7、们希望找到一定程度上近似单位阶跃函数的“替代函数”,并希望它单调可微。Sigmoid函数正是这样一个常用的替代函数: =+,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡,得到 = + (+) = + 若将y视为样本x作为正样本的可能性,则1-y是其反样本可能性,两者的比值1称为“几率”,反映了x作为正样本的相对可能性。对几率取对数则得到“对数几率” ln1,由此可看出上式是在用线性回归模型的预测结果去逼近真实标签的对数几率,因此,其对应的模型称为“对数几率回归”,亦称逻辑回归LR。逻辑回归逻辑回归LRLR 逻辑分布Logistic distribution 设X是连续随
8、机变量, X服从Logistic distribution, 分布函数: 密度函数: 为位置参数, 大于0为形状参数, (,1/2)中心对称逻辑回归逻辑回归LRLR S曲线(Sigmoid Curve) =11 + = 1 (0,1) 双曲线正切 = = + = 1 2(-1,1)逻辑回归逻辑回归LRLR Binomial logistic regression model 由条件概率P(Y|X)表示的分类模型 形式化为logistic distribution X取实数, Y取值1,0逻辑回归逻辑回归LRLR 事件的几率odds: 事件发生与事件不发生的概率之比为 称为事件的发生比(the
9、odds of experiencing an event) 对数几率: 对逻辑斯蒂回归:逻辑回归逻辑回归LRLR 多项logistic回归,normalized exponential (Softmaxfunction) Y的取值集合为补:多分类学习补:多分类学习 二分类解决多分类。三种策略: 一对一 (One vs. One, OvO) 一对其余 (One vs. Rest, OvR) 多对多 (Many vs. Many, MvM).第二章 机器学习理论与方法 机器学习方法概论 机器学习的主要方法线性回归逻辑回归感知机支持向量机决策树集成学习神经网络 贝叶斯分类23感知机感知机分类本质分
10、类本质感知机感知机(Perceptron)(Perceptron) 输入为实例的特征向量, 输出为实例的类别,取+1和-1; 感知机对应于输入空间中将实例划分为正负两类的分离超平面, 属于判别模型; 导入基于误分类的损失函数; 利用梯度下降法对损失函数进行极小化; 感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式; 1957年由Rosenblatt提出, 是神经网络与支持向量机的基础。25感知机感知机 定义:假设输入空间(特征向量)为 ,输出空间为Y=-1, +1。输入 表示实例的特征向量,对应于输入空间的点;输出yY表示示例的类别。由输入空间到输出空间的函数为f(xf(x)=s
11、ign()=sign(w w x+bx+b) ),称为感知机。 模型参数: w 、x, 内积, 权值向量, 偏置感知机 感知机几何解释:找到一个最佳的满足线性方程wx+b=0的w和b值,即分离超平分离超平面面。 对应于超平面S,w为法向量,b截距,分离正、负类: 分离超平面:27感知机-学习策略 核心:极小化损失函数核心:极小化损失函数 如果训练集是线性可线性可分分的,感知机的学习目的是求得一个能将训练集正实例点和负实例点完全分开的分离超平面,即确定感知机模型参数w和b。 , = + M为误分类的集合。这个损失函数就是感知机学习的经验风险函数 如何定义损失函数? 自然选择: 误分类点的数目,
12、但损失函数不是w,b 连续可导, 不宜优化。感知机-学习策略 另一选择: 误分类点到超平面的总距离: 距离:误分类点:误分类点距离:总距离:29感知机感知机-学习算法学习算法感知机学习转变成求解损失函数L(w,b)的最优化问题。采用最优化的方法是随机梯度下降法。首先,任选一个超平面0和0,然后使用梯度下降法不断地极小化目标函数, , = ( + )一次随机的选取一个误分类点使其梯度下降。假设误分类点集合M是固定的,那么损失函数L(w,b) 的梯度通过偏导计算:(,)= (,)= 然后,随机选取一个误分类点,根据上面的规则,计算新的w,b,然后进行更新: + + 其中是步长,0 0称为惩罚参数对
13、应的对偶最优化问题:= =. = 0 , = ,38非线性非线性SVMSVM解决非线性分类问题,通过核技巧将低维的非线性特征转化为高维的线性特征,从而可以通过线性模型来解决非线性的分类问题。左图中的数据集线性不可分的,无法用一个超平面来将两种样本分隔开;我们希望将这些数据进行转化,转化之后的数据能够通过一个线性超平面架构不同类别的样本分开核函数!39非线性非线性SVMSVM第二章 机器学习理论与方法 机器学习方法概论 机器学习的主要方法线性回归模型逻辑回归模型感知机支持向量机模型决策树集成学习神经网络 贝叶斯分类决策树 决策树(decision tree)是一种基本的分类与回归方法。这里主要讨
14、论分类。 本质上决策树是通过一系列规则对数据进行分类的过程。首先对数据进行处理,利用归纳算法生成可读的规则和决策树然后使用决策对新数据进行分析 决策树学习的三个步骤:特征选择特征选择、决策树的决策树的生成生成和决策树的剪枝决策树的剪枝4142决策树决策树 决策树是一个树结构。其每个内部结点内部结点表示一个特征属性及对其测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶结点叶结点存放一个类别。 使用决策树进行决策的过程就是从根结点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子结点,将叶子结点存放的类别作为决策结果。决策树 决策树学习:43决策树决策树 特征选择:
15、 特征选择决定用哪个特征来划分特征空间45决策树决策树有了这棵树,我们就可以对新来的用户数据进行是否可以偿还的预测了。46决策树决策树 决策树最重要的是决策树的构造决策树的构造。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。 构造决策树的关键步骤是分裂属性分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“纯” ,尽量让一个分裂子集中待分类项属于同一类别。 若属性是连续的,我们可以采取连续属性离散化,最简单地策略是采用二分法对连续属性进行处理。47ID3.5ID3.5 信息论中有熵熵的概念,表示状态的混乱程度,熵
16、越大越混乱。熵的变化可以看做是信息增益,决策树ID3算法的核心思想是以信息增益信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。 设D为用(输出)类别对训练样本进行的划分,则D的熵表示为: = =48ID3.5ID3.5其中表示第i个类别在整个训练样本中出现的概率,一般来说会用这个类别的样本数量占总量的占比来作为概率的估计;如果将训练样本D按属性A进行划分,则A对D的经验条件熵为: | = =()于是,信息增益就是两者的差值:g(D,A)=H(D)g(D,A)=H(D)- -H(D|AH(D|A) )。互。互信息信息 ID3.5决策树算法在每次分裂的时候选择信息增益最大的属性,作为本
17、次分裂属性,递归地递归地产生决策树。49ID3.5ID3.5- -例题例题50ID3.5ID3.5- -例题例题51C4.5C4.5C4.5算法与ID3算法相似,区别在于,C4.5算法用信息增益比信息增益比, =(,)()来选择特征。具体算法步骤如下:替换成信息增益,即为ID352CARTCARTCART是一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。分类树是针对目标变量是离散型变量,通过计算分割两部分数据的基尼不纯度的变化来判定最优分割点,将数据分割成离散类的方法。回归树则是针对目标变量是连续
18、性的变量,通过计算最小平方误差,也就是选择使得分割后数据方差变得最小的特征和分割点,然后数据根据大于或者小于这个值进行划分进行树分裂最终生成回归树。53决策树的决策树的剪枝剪枝(pruning)(pruning) 由于生成的决策树存在过拟合问题,需要对它进行剪枝,以简化学到的决策树。决策树的剪枝,即从已生成的树上剪掉一些叶结点或叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树。同时也可以通过限制树的深度树的深度、叶子结点最小叶子结点最小数据量数据量限制等方法来减少过拟合程度。54决策树的剪枝决策树的剪枝补充补充:交叉熵损失函数相对平方损失过于严格,可使用更适合衡量两个
19、概率分布差异的测量函数。其中, 交叉交叉熵熵( cross- entropy)是个常用的衡量方法:由于向量中只有第个元素为 1,其余全为 0,于是假设训练数据集的样本数为 n,交叉熵损失函数定义为其中 代表模型参数。同样地,如果每个样本只有个标签,那么交叉熵损失可以简写。从另个角度来看,我们知道最小化等价于最大化即最小化交叉熵损失函数等价于最化训练数据集所有标签类别的联合预测概率KL散度(Kullback-Leibler (KL) divergence) 如果我们对于同一个随机变量 x 有两个单独的概率分布P(x) 和 Q(x),可以使用 KL 散度来衡量这两个分布的差异: 和 KL 散度密切
20、联系的量是 交叉熵它和 KL 散度很像但是缺少左边一项:第二章 机器学习理论与方法 机器学习方法概论 机器学习的主要方法线性回归模型逻辑回归模型感知机支持向量机模型决策树集成学习神经网络 贝叶斯决策理论59集成学习集成学习 集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。一般而言,通常所说的集成学习中的多个学习器都是同质的 弱学习器弱学习器 。基于该弱学习器,通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的 强学习器强学习器 。 目前集成学习算法大多源于bagging、boost
21、ing、stacking三种思想。60集成学习集成学习BaggingBagging:通过自主采样法自主采样法采样出K个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。在对预测输出进行结合时,对分类任务使用简单投票法,对回归任务使用简单平均法。随机随机森林森林(RF)(RF):在以决策树为基学习器构建bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择随机属性选择。61集成学习集成学习StackingStacking:将每个基学习器的输出组合起来作为一个特征向量,重新进行训练。将训练好的所有基学习器对整个训练集进行预测,第j个基学习器对
22、第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。BoostingBoosting:每一轮根据上一轮的分类结果动态调整每个样本在分类器中的权重,训练得到K个弱分类器,他们都有各自的权重,通过加权组合的方式得到最终的分类结果。主要算法有AdaBoost、GBDT、Xgboost、LightGBM。62集成学习集成学习 主要介绍一下GBDT,DT,即回归树,这是GBDT的基础算法;提升树,GBDT是以决策树为基学习器的提升方法;GB,即梯度提升。 boosting提升方法采用加法模型(即基函数的线性组合)与前向分布算法。以决策树决策树为基函数的提升方法称
23、为提升树。对分类问题构建的决策树是二叉分类树,对回归问题构建的决策树是二叉回归树。提升树是迭代多棵回归树来共同决策。63提升树提升树 当采用平方误差损失函数平方误差损失函数时, , = ( )其损失变为 , + ;= ;= ;这里, = 是当前模型拟合数据的残差。 所以,对回归问题的提升树算法来说,只需要简单地拟合当前模型拟合当前模型的残差的残差。 提升树利用加法模型与前向分步算法实现学习的优化过程,当损失函数是平方损失和指数损失函数时,每一步优化是很简单的,但对一般损失函数而言,往往每一步优化没那么容易,如绝对值损失函数和Huber损失函数。64GBDT针对这一问题,Freidman提出了梯
24、度提升算法:利用最速下降的近似方法,即利用损失函数的负梯度在当前模型的值(, ) =作为回归问题中提升树算法的残差的近似值近似值,拟合一个回归树,这就是GBDT。主要内容 贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要机器学习的主要方法方法线性回归线性回归逻辑回归感知机支持向量机决策树集成学习神经网络神经网络 贝叶斯分类贝叶斯分类神经网络 神经网络就是就是找到一个可以模拟人脑工作行为的表现良好的近似函数。可以把树突想象成人工智能网络中基于突触感知器的被赋予了权重的输入。然后,该输入在人工智能网络的细胞体中相加。如果得出的输出值大于阈值单元,那么神经元就会兴奋,并将输出传递
25、到其它神经元。人工神经元 结点这种模型所实现的功能正是前面提到的线性分类器。非线性的映射单元68神经网络神经网络-激活函数激活函数我们可以将f(x)=sign(wx+b)中的sign函数替换成其他的非线性激活函数. = + = (,) = + 69神经网络神经网络-单层感知机单层感知机感知机, 下图为完整的单层感知机架构.70神经网络神经网络-多层感知机多层感知机左图所示架构叫多层感知机(MLP)。左图是一个三层感知机模型:一个输入层、一个隐藏层,以及一个输出层。然而,在深度学习或神经网络领域,人们并不叫它三层神经网络。通常,我们只统计隐藏层或其加上输出层的层数,因此,上图的网络也叫两层神经网
26、络。那么所谓的深度学习,就意味着有更多的隐藏层,例如右图所示。71神经网络神经网络-反向传播反向传播只有从得到 y_hat 的输出层追溯到输入层,我们才会发现 J 与 w 、b 的间接关系,如下图所示。反向传播其实就是反复运用微积分的链式法则链式法则,这可能是神经网络中最有效的计算可学习参数梯度的方法了。人工神经元网络工作原理 复杂一些的判别函数将特征空间划分成两个区域两条射线组成的折线来划分在折线的一边为y=1,在折线的另一边y=0 显然用一个神经元是不行人工神经元网络工作原理 复杂一些的判别函数整个空间将因这两个函数值的极性不同分成四个区域y=0这个区域所具有的特点是与都小于零需要增加一个
27、逻辑运算才能解决问题三个运算可以通过三个神经元结点人工神经元网络工作原理复杂一些的判别函数Whereas a two-layer network classifier can only implement a linear decisionboundary, given an adequate number of hidden units, three-, four- and higher-layernetworks can implement arbitrary decision boundaries. The decision regions need notbe convex or si
28、mply connected. From: Richard O. Duda, Peter E. Hart, and David G.Stork, Pattern Classification. Copyright c 2001 by John Wiley & Sons, Inc.77总结总结算法算法优点优点缺点缺点适用场适用场景景线性回归线性回归结果易于理解,计算上不复杂对非线性的数据拟合不好回归逻辑回归逻辑回归计算代价不高,易于理解和实现容易欠拟合,分类精度可能不高分类单层感知单层感知机机模型简单易于实现仅能解决线性可分问题分类神经网络神经网络分类的准确度高, 对噪声有较强的鲁棒性和容错能力
29、,能充分逼近复杂的非线性关系,具备自学习功能等等大量的参数,不能观察其学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长分类回归支持向量支持向量机机解决非线性问题,最优超平面只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,具有一定的鲁棒性,对大规模训练样本难以实施,解决多分类问题存在困难分类决策树决策树计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据可能会产生过度匹配问题分类回归集成方法集成方法提高预测性能,直接级联不同模型,容易实现,参数较少要求各个模型“好而不同”分类、回归第二章 机器学习理论与方法 机器学习方法概论 机器学
30、习的主要方法线性回归逻辑回归感知机支持向量机决策树集成学习神经网络 贝叶斯分类贝叶斯分类 贝叶斯决策论 朴素贝叶斯分类贝叶斯决策论 什么是决策?如何进行决策? 如何在信息不完整的情况下做最优决策? 机器自动识别分类,能不能避免错分类 ? 怎样才能减少错误? 不同错误造成的损失一样吗? 先验概率,后验概率,概率密度函数?什么是决策 管理游戏:犹太人的选择有三个人要被关进监狱三年,监狱长答应每个人一个要求。美国人爱抽雪茄,带了三箱雪茄。法国人浪漫,带了美丽的女子相伴。犹太人要一部与外界沟通的电话。三年后什么是决策什么是决策 广义决策:决策是一个过程。 决策过程的第一步是:明确目标数学角度:制定准则
31、函数什么是决策决策的种类 确定型决策:备选方案只存在一种自然状态的决策。 风险型决策:备选方案存在两种或两种以上自然状态,风险型决策每种自然状态发生的概率可以估计的决策。 非确定型决策:备选方案存在两种或两种以上自然状态,每种自然状态发生的概率无法估计的决策。什么是决策什么是贝叶斯决策【百度百科】 贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。一切不确定因素皆用概率或概率分布来表示,然后通过贝叶斯公式推理出目标的概率或概率分布,最终做出决策。贝叶斯决
32、策论 统计决策理论是模式分类问题的基本理论之一 贝叶斯决策理论是统计决策理论中的一个基本方法 基于最小错误率的贝叶斯决策 基于最小风险的贝叶斯决策 在限定一类错误率条件下使另一类错误率为最小的两类别决策 最小最大决策 序贯分类方法几种常用的决策规则几种常用的决策规则基于最小错误率的贝叶斯决策基于最小错误率的贝叶斯决策分类识别中为什么会有错分类?分类识别中为什么会有错分类?当某一特征向量值X只为某一类物体所特有,即对其作出决策是容易的,也不会出什么差错问题在于出现模棱两可的情况任何决策都存在判错的可能性。基于最小错误率的贝叶斯决策基于最小错误率的贝叶斯决策基本思想基本思想使错误率为最小的分类规则
33、称之为基于最小错误率的贝叶斯决策贝叶斯决策理论先验概率,后验概率,概率密度函数假设总共有c类物体,用i(i=1,2,c)标记每个类别,x = x1, x2, , xdT,是d维特征空间上的某一点,则P(i)是先验概率先验概率p(x| i)是i类发生时的条件概率密度函数条件概率密度函数P(i|x)表示后验概率后验概率基于最小错误率的贝叶斯决策例例:癌细胞的识别假设每个要识别的细胞已作过预处理,并抽取出了d个特征描述量,用一个d维的特征向量X表示,识别的目的是要依据该X向量将细胞划分为正常细胞或者异常细胞。这里我们用表示是正常细胞,而则属于异常细胞。基于最小错误率的贝叶斯决策先验概率先验概率P(1
34、)和P(2)含义: 每种细胞占全部细胞的比例P(1)+P(2)=1一般情况下正常细胞占比例大,即P(1)P(2)基于最小错误率的贝叶斯决策基于最小错误率的贝叶斯决策 先验概率先验概率 根据先验概率决定 这种分类决策没有意义 表明由先验概率所提供的信息太少221121),()(),()(xPPxPP基于最小错误率的贝叶斯决策概率密度函数概率密度函数利用对细胞作病理分析所观测到的信息,也就是所抽取到的d维观测向量。为简单起见,我们假定只用其一个特征进行分类,即d=1得到两类的类条件概率密度函数分布P(x|1)是正常细胞的属性分布P(x|2)是异常细胞的属性分布基于最小错误率的贝叶斯决策基于最小错误
35、率的贝叶斯决策类条件概率密度函数1)|(dxXfi概率密度函数性质基于最小错误率的贝叶斯决策基于最小错误率的贝叶斯决策 类条件概率密度函数类条件概率密度函数直接用来分类直接用来分类是否合理?是否合理?221: )|()|(XPXP121: )|()|(XPXP具有一定的合理性不满足最小错误率要求没有考虑先验概率基于最小错误率的贝叶斯决策后验概率含义后验概率含义P (1 |X )当观测向量为X值时, 该细胞属于正常细胞的概率。P (2 |X )当观测向量为X值时, 该细胞属于异常细胞的概率。基于最小错误率的贝叶斯决策后验概率基于最小错误率的贝叶斯决策类条件概率和后验概率区别后验概率: P(1|x
36、)和P(|x)同一条件x下,比较1与2出现的概率两类1和2,则有P(1|x)+P(2|x)=1如P(1|x) P(2|x)则可以下结论,在x条件下,事件1出现的可能性大类条件概率: P(x|1)和P(x|2)是在不同条件下讨论的问题即使只有两类1与2,P(x|1)+P(x|1)1P(x|1)与P(x|2)两者没有联系基于最小错误率的贝叶斯决策贝叶斯公式先验概率,后验概率,概率密度函数之间关系根据先验概率先验概率和概率密度函数概率密度函数可以计算出后验后验概率概率基于最小错误率的贝叶斯决策生成模型获得先验概率p(x),类条件概率函数p (x|)计算后验概率:p (|x) p(x) p (x|)判
37、别模型直接获得后验概率p (|x)判别函数获得非概率的分类函数f(x)基于最小错误率的贝叶斯决策问题为什么需要生成模型?先验概率先验概率和类条件概率密度函数类条件概率密度函数可以作为已知而后验概率后验概率需要通过计算获得基于最小错误率的贝叶斯决策为什么需要生成模型?估计先验概率先验概率与类条件概率密度函数类条件概率密度函数时都可搜集到大量样本将后验概率后验概率分解为先验概率先验概率与类条件概率密度类条件概率密度函数函数(生成模型)具有更大的灵活性。基于最小错误率的贝叶斯决策问题根据最小错误率,如何利用先验概率先验概率、类条件类条件概率密度函数概率密度函数和后验概率后验概率进行分类?基于最小错误
38、率的贝叶斯决策贝叶斯决策理论前提各类别总体的概率分布是已知的;要决策分类的概率分布是已知的。贝叶斯决策理论方法所讨论的问题是:已知:总共有c类物体,以及先验概率P(i)及类条件概率密度函数p(x|i)问题: 如何对某一样本按其特征向量分类的问题。基于最小错误率的贝叶斯决策基于最小错误率的贝叶斯决策规则: 如果P(1|X)P(2|X),则X归为1类别如果P(1|X)P(2|X),则X归为2类别基于最小错误率的贝叶斯决策几种等价形式:后验概率形式:如果则 x归为i先验概率及类条件概率密度函数表示:如果则 x归为i基于最小错误率的贝叶斯决策几种等价形式:比值的方式表示,如果则x归为1,否则x归为2基
39、于最小错误率的贝叶斯决策几种等价形式:对数形式若则x归为1,否则x归为2基于最小错误率的贝叶斯决策例2.1 假设在某地区切片细胞中正常(1)和异常()两类的先验概率分别为P(1)=0.9,P(2)=0.1。现有一待识别细胞呈现出状态x,由其类条件概率密度分布曲线查得p(x|1)=0.2,p(x|)=0.4,试对细胞x进行分类。基于最小错误率的贝叶斯决策例2.1解:利用贝叶斯公式,分别计算出状态为x时1与的后验概率基于最小错误率的贝叶斯决策例2.1根据贝叶斯决策有P(1|x)0.818P(|x)0.182分析:错误概率是多少?判断为正常细胞,错误率为0.182判断为异常细胞,错误率为0.818因
40、此判定该细胞为正常细胞比较合理。基于最小错误率的贝叶斯决策基于最小风险的贝叶斯决策基本思想使错误率最小并不一定是一个普遍适用的最佳选择。癌细胞分类两种错误:癌细胞正常细胞正常细胞癌细胞两种错误的代价(损失)不同基于最小风险的贝叶斯决策基本思想宁可扩大一些总的错误率,但也要使总的损失减少。引进一个与损失有关联的,更为广泛的概念风险。在作出决策时,要考虑所承担的风险。基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。基于最小风险的贝叶斯决策最小错误率贝叶斯决策规则:最小错误率目标函数: P (j|X)为了考虑不同决策的不同损失,构造如下目标函数(i)j:表示样本X实际属于j类,被判为状态i所
41、造成的损失Rj(X):表示把样本X判为状态i所造成的整体损失基于最小风险的贝叶斯决策两类情况:有没有癌细胞1表示正常,2表示异常P(1|X)与P(2|X)分别表示了两种可能性的大小X是癌细胞(2),但被判作正常(1),则会有损失,这种损失表示为:2(1)X确实是正常(1),却被判定为异常(2),则损失表示成: 1(2)基于最小风险的贝叶斯决策两类情况:有没有癌细胞另外为了使式子写的更方便,我们也可以定义1(1)和2(2)是指正确判断也可有损失基于最小风险的贝叶斯决策两类情况:有没有癌细胞X判作1引进的损失应该为将X判为2的风险就成为作出哪一种决策就要看是R1(X)小还是R2(X)小这就是基于最
42、小风险的贝叶斯决策的基本出发点基于最小风险的贝叶斯决策(1)自然状态与状态空间自然状态: 识别对象的类别状态空间: 所有自然状态所组成的空间=1,2,c(2)决策与决策空间决策: 对分类问题所作的判决决策空间: 由所有决策组成的空间称为决策空间内决策总数a可以不等于类别数cA=1, 2, ,n 基于最小风险的贝叶斯决策(3)损失函数(i|j)(或(i,j)这就是前面我们引用过的j(i)表示对自然状态j,作出决策j时所造成的损失(4)观测值X条件下的期望损失R(i|X)这就是前面引用的符号Ri,也称为条件风险。基于最小风险的贝叶斯决策最小风险贝叶斯决策规则可写成:引入一个期望风险R 基于最小风险
43、的贝叶斯决策最小风险贝叶斯决策步骤:(1)计算出后验概率已知P(i)和P(X|i),i=1,,c,获得观测到的特征向量X根据贝叶斯公式计算j=1,,x基于最小风险的贝叶斯决策最小风险贝叶斯决策步骤:(2)计算条件风险已知: 后验概率和决策表计算出每个决策的条件风险(3) 找出使条件风险最小的决策k则k就是最小风险贝叶斯决策。基于最小风险的贝叶斯决策例2.2 在例2.1条件的基础上已知11=0,(11表示(1|1)的简写),12=6,21=1,22=0按最小风险贝叶斯决策进行分类基于最小风险的贝叶斯决策例2.2解:已知条件为P(1)0.9, P(12)0.1p(X|1)0.2, p(X|12)0
44、.r110, 126, 211, 220根据2.1的计算结果可知后验概率为P(1|X)0.818P(2|X)0.182基于最小风险的贝叶斯决策例2.2再计算出条件风险基于最小风险的贝叶斯决策例2.2作出决策由于R(1|X)R(2|X)即决策为2的条件风险小于决策为1的条件风险,因此应采取决策行动2即判待识别的细胞X为2类异常细胞。两种决策方法之间的关系两种决策方法之间的关系设损失函数为条件风险为错误概率在限定一类错误率条件下使另一类错误率为最小的两类别决策聂曼-皮尔逊判决neyman-pearson基本思想两种错误一种的错误概率固定,另一种尽量小最小最大决策问题先验概率未知基本思想使得最大可能
45、的风险做小化最小最大决策序贯分类序贯分类迄今为止所讨论的分类问题,关于待分类样本的所有信息都是一次性提供的。但是,在许多实际问题中,观察实际上是序贯的。随着时间的推移可以得到越来越多的信息。Bayes决策理论小结与其它决策方法比较, Bayes决策理论用概率来描述一切不确定的因素;通过概率计算来进行“Bayes推理”具体来说,就是三个概率为什么需要概率密度函数的估计贝叶斯决策需要的已知信息贝叶斯分类器中只要知道先验概率,条件概率P(i),P(x|i),就可以设计分类器了存在问题: 未知概率密度函数未知类条件概率密度未知先验概率密度有一些训练数据参数估计的基本学习方法两种主要的点估计方法 最大似
46、然估计 贝叶斯估计 贝叶斯学习最大似然估计最大似然估计的特点通常,训练样本数目增加时具有很好的收敛性质一般,比其它方法简单,例如比贝叶斯方法简单最大似然估计p(Xi |i)和l(i)的区别p(Xi |i)和l(i)形式上相似,但含义不相同p(Xi |i)是Xi的函数,是概率密度函数l(i)是i的函数,不是概率密度函数Gaussian分布,方差已知,均值未知似然函数是均值的函数样本越多,似然函数越尖锐使似然函数最大的值,记为同样使对数似然函数取得最大的值最大似然估计最大似然估计的基本思想求i的最大似然估计就是把p(xi| i)看成i的似然函数,求出使它最大时的i值。最大似然估计最大似然估计的基本
47、思想对i求导,并令它为0:0)|(log.11Nkikpxp0)|(log.0)|(log111ikNkpikNkxpxp,即为的估值利用上式求出ii最大似然估计例: 不规则硬币,正面概率u和背面概率1-u未知,且无先验知识。根据观测数据估计新的实验中出现正面还是背面。有道理?观测观测出现结果出现结果U的最大似然估计的最大似然估计第1次观测正面1第2次观测背面0.5第3次观测正面0.67第4次观测正面0.75有道理?贝叶斯估计问题假定:待估参数是待估计的参数,是随机变量的概率分布概率已知学习样本x = (x1,x2, xN)T ,独立同分布根据学习样本估计参数贝叶斯估计步骤 确定的先验分布p(
48、),。用样本x=(x1, x2,. xN)T求出样本的联合概率密度分布p(x| ),它是的函数。利用贝叶斯公式,求的后验概率利用定理求贝叶斯估计量dPpPpp)()|()().|()|(xxxdp)|(x贝叶斯估计贝叶斯估计贝叶斯学习贝叶斯学习基本思想已知: 样本X=(x1, x2,. xN)T问题: 通过样本集推断总体分布p(x|X)总体分布形式已知问题转化为估计参数的估计问题,即:然后再利用p(|X) 估计p(x|X)dPXpPXpXp)()|()().|()|(贝叶斯学习 贝叶斯学习基本思想贝叶斯学习基本思想NkkxpXp1)|()|(dXpxpdXxpXxp)|()|()|,()|()
49、|()|()|()|(111NNNkkNXpxpxpxpdpXppXpXp)()|()()|()|(根据独立性假设dXpxpXpxpNNNN)|()|()|()|(11贝叶斯学习 例例:一维随机变量一维随机变量x服从均匀分布服从均匀分布未知,但分布概率已知未知,但分布概率已知给出一组观测值给出一组观测值X=4,7,2,8,估计,估计p(x|)其它00/1x), 0()|(Uxp其它010010/1x)10, 0(U贝叶斯学习贝叶斯学习 最后,根据最后,根据p(|X)和下式得到和下式得到p(x|X)dXpxpdXxpXxp)|()|()| ),()|(41151d810 x08x( | ) (0
50、,8)p xU最大似然估计d1085dx105朴素贝叶斯法分类(na ve Bayes) 训练数据集:由X和Y的联合概率分布P(X,Y)独立同分布产生 朴素贝叶斯通过训练数据集学习,即先验概率分布: 及条件概率分布: 注意: 条件概率为指数级别的参数:朴素贝叶斯法分类 条件独立性假设 这是一个较强的假设,“朴素” 贝叶斯名字由来, 牺牲分类准确性。 贝叶斯定理: 代入上式:朴素贝叶斯法分类 贝叶斯分类器: 分母对所有都相同:朴素贝叶斯法分类 朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化, 假设选择0-1损失函数: f(X)为决策函数 期望风险函数: 取条件期望:朴素贝叶斯法分