收藏 分享(赏)

2.1机器学习理论与方法_2020.pdf

上传人:nanchangxurui 文档编号:7077461 上传时间:2022-09-01 格式:PDF 页数:44 大小:2.73MB
下载 相关 举报
2.1机器学习理论与方法_2020.pdf_第1页
第1页 / 共44页
2.1机器学习理论与方法_2020.pdf_第2页
第2页 / 共44页
2.1机器学习理论与方法_2020.pdf_第3页
第3页 / 共44页
2.1机器学习理论与方法_2020.pdf_第4页
第4页 / 共44页
2.1机器学习理论与方法_2020.pdf_第5页
第5页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、人工智能导论人工智能导论北邮人工智能学院: 龚萍2020-2021第二章 机器学习理论与方法机器学习方法概论机器学习的主要方法线性回归逻辑回归感知机支持向量机决策树集成学习神经网络贝叶斯分类第二章 机器学习理论与方法机器学习方法概论机器学习的主要方法线性回归逻辑回归感知机支持向量机决策树集成学习神经网络贝叶斯分类机器学习方法概论机器学习基本问题 监督学习 机器学习三要素 模型评估与选择 正则化与交叉验证 生成模型与判别模型 分类(classification) 回归(regression) 强化学习RL(reinforcement learning)5机器学习的基本问题定义定义: 机器学习是一

2、门人工智能的科学,它使用算法来解析数据、从中学习得到模型,然后对真实世界中的事件做出决策和预测。机器学习的基本问题学习数据学习数据算法:解释数据算法:解释数据结果:预测数据结果:预测数据衡量算法:推广能力衡量算法:推广能力理论原则:拟合训练数据理论原则:拟合训练数据+最简模型最简模型用用函数或其它模型表示数据函数或其它模型表示数据7机器学习的基本问题概念区分:数据挖掘=机器学习+数据库。大部分数据挖掘算法,是机器学习算法在数据库中的优化。统计学习=机器学习。一个偏数学 ,一个偏实践。输入层输出层含多个隐层的深度学习模型隐层深度学习传统机器学习人工特征抽取学习线性组合从原始特征出发自动学习高级特

3、征组合数据获取预处理特征提取特征选择推理/预测/识别人工特征表达监督学习 学习数据 输入变量: x(相面问题:某人的人脸图像) 目标变量: t (相面问题:该人的命运) 训练样本集合: x x,t t (相面问题:一万人的数据) 学习过程学习出x和t的函数关系,即f(x) t 解决问题(预测) 给定x ,用f(x)预测t (相面问题:开始相面)监督学习 Instance, feature vector, feature space 输入实例x的特征向量: 与 不同, 后者表示多个输入变量中的第i个 训练集: 输入(或特征向量)与输出对,样本或样本点 输入变量和输出变量,不同类型组成:分类问题、

4、 回归问题、标注问题监督学习 联合概率分布假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)P(X,Y)为分布函数或分布密度函数对于学习系统来说, 联合概率分布是未知的,训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。 假设空间监督学习目的是学习一个由输入到输出的映射, 称为模型模式的集合就是假设空间( hypothesis space)概率模型:条件概率分布P(Y|X), 决策函数: Y=f(X)机器学习三要素方法=模型+策略+算法 模型模型是要学习的条件概率分布或决策函数,模型的假设空间F中包含对应的所有可能。决策函数集合:= | = 参数空间:F = | =

5、 , 条件概率集合:F = | |参数空间: = | ,机器学习三要素策略 考虑按照什么样的准则学习或选择最优模型 损失函数:一次预测的好坏 风险函数:平均意义下模型预测的好坏 loss function, cost function, 0-1 损失函数(0-1 loss function) 平方损失函数(quadratic loss function)/均方误差 绝对损失函数(absolute loss function)机器学习三要策略对数损失函数logarithmic loss function或对数似然损失函数log-likelihood loss function损失函数的期望-期望

6、损失风险函数risk function, 期望损失expected loss由 , 可以直接求出p | ,但不知道,对于训练集经验风险empirical risk,经验损失 empirical loss-模型关于训练样本集的平均损失机器学习三要素 策略:经验风险最小化和结构风险最小化 经验风险最小化最优化最优化模型(ERM): 当样本容量足够大时,经验风险最小化有很好的效果。如最大似然估计(maximum likelihood estimation),模型是条件概率分布,损失函数是对数损失函数,就是ERM的等价 当样本容量很小时, 经验风险最小化学习的效果未必很好, 会产生“ 过拟合over-

7、fitting”机器学习三要素 策略:结构风险最小化 structure risk minimization, 为防止过拟合提出的策略, 等价于正则化 regularization) , 加入正则化项regularizer, 或罚项 penalty term:结构风险最小化求最优模型就是求解最优化最优化问题:贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP),当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,就是结构风险最小化的等效补充:损失函数 指数损失函数(exponential loss

8、) Hinge 损失函数 感知损失(perceptron loss)函数 交叉熵损失函数 (Cross-entropy loss function)补充:损失函数机器学习三要素 算法如果最优化问题有显式的解析式, 算法比较简单但通常解析式不存在, 就需要数值计算的方法机器学习方法之间的不同,主要就来源于模型、策略、算法的不同。模型评估与模型选择 Polynomial Curve Fitting 哪一个最好?训练误差测试误差过训练模型选择模型评估与模型选择 多项式多项式曲线拟合(曲线拟合(Polynomial Curve Fitting)-问题描述输入变量: x目标变量: t生成过程:给定训练样

9、本: x x,t tsin(2)tx 实际问题中是未知的模型评估与模型选择目标:给定新的 ,预测的值模型:以线性模型为例,利用训练样本,估计模型的参数具体方法:?xt模型评估与模型选择训练误差, 训练数据集的平均损失测试误差, 测试数据集的平均损失损失函数是0-1 损失时:测试数据集的准确率:模型评估与模型选择 过拟合与模型选择 假设给定训练数据集 经验风险最小:模型评估与模型选择Sum-of-Squares Error Function3rd Order Polynomial模型评估与模型选择 过训练的相关因素模型复杂度模型评估与模型选择模型评估与模型选择 过训练的相关因素模型复杂度训练样本

10、数Data Set Size: 9thOrder Polynomial模型评估与模型选择9thOrder PolynomialData Set Size: 模型评估与模型选择过训练的相关因素模型复杂度训练样本数学习策略最大似然贝叶斯方法正则化与交叉验证正则化与交叉验证正则化与交叉验证vs. 正则化与交叉验证 交叉验证交叉验证:训练集 training set: 用于训练模型验证集 validation set: 用于模型选择测试集 test set: 用于最终对学习方法的评估简单交叉验证S折交叉验证留一交叉验证生成模型和判别模型 监督学习的任务:学习一个模型 决策函数: 或者条件概率分布: 生

11、成方法Generative approach,对应生成模型generative model, 如朴素贝叶斯法(Nave Bayes)和隐马尔科夫模型(HMM)生成模型和判别模型 判别方法由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型Discriminative approach对应discriminative model: = 或者P | K近邻法、 感知机、 决策树、 logistic回归模型、 最大熵模型、 支持向量机、 提升方法和条件随机场 生成方法:收敛速度快,更真实,适用于隐含量存在 判别方法:直接面对预测,准确率更高,有效学习分类问题 监督学习中

12、,输出变量y取有限个离散值,离散值,即为分类问题。(。(输入X可以是离散和连续。) 分类器(classifier),学习一个分类模型或分类决策函数 分类对新的输入,输出一个预测的离散标签 学习和分类两个过程 多类分类,二类分类 两个多种算法适用于分类,KNN、感知机、逻辑回归LR、神经网络、SVM、决策树等。Y= f() 或者(/)分类问题 二分类模型评价指标为了评价一个分类器的分类性能优劣,需要引入一些评估指标,常用的一些分类问题指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值等。以二分类为例:TP true positive FN false n

13、egativeFP false positiveTN true negative 39分类问题 准确率(Accuracy)/查准率,是指对于给定的测试数据集,分类器正确分类的样本数与总样本数的比值,反映了分类器对整个样本的判定能力,即能够将正的判定为正,负的判定为负。计算公式如下: 错误率(Error)则正好与准确率的含义相反,计算公式如下: 精确率(Precision)是指被分类器判定为正类的样本中真正的正类样本的比重,即被分类器判为正类的所有样本中有多少是真正的正类样本。 召回率(Recall)/查全率,是指被分类器正确判定的正类样本占总的正类样本的比重,即所有正类样本中有多少被分类器判为

14、正类样本。40分类问题 F-score是精确率和召回率的调和均值,计算公式如下: 其中, ( 0 )的取值反映了精确率和召回率在性能评估中的相对重要性具体,通常情况下,取值为1。描述如下: 当 = 1时,就是常用的1值,表明精确率和召回率一样重要,计算公式如下:41分类问题 1值又称为平衡分数(Balanced F-Score)。精确率和召回率都高时,1值也会高: 当 = 2 时,2表明召回率的权重比精确率高; 当 = 0.5 时,0.5表明精确率的权重比召回率高。 以上讨论的评估指标适用于二分类问题,但当我们的问题属于多分类问题时,考察在不同类别下综合考察分类器的优劣,这时候就需要引入宏平均

15、(Macro-averaging)、微平均(Micro-averaging)。分类问题P-R曲线与平衡点示意图回归问题 回归模型是预测从输入变量到输出变量之间的映射函数 回归问题的学习等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且预测未知数据 学习和预测两个阶段 一元/多元回归,线性/非线性回归 回归学习最常用的损失函数是平方损失函数,可以由最小二乘法(least squares)求解回归问题例子: 标记表示名词短语的“开始”、“结束”或“其他”(分别以B, E, O表示) 输入:At Microsoft Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience. 输出:At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 技术资料 > 施工组织

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报