第4课 机器学习的三要素
机器学习是从有限的观测数据中学习出具有一般性的规律并可以将总结出来的规律推广应用到为观测样本上。机器学习方法课粗略地分为三个基本要素模型、学习准则、优化算法。4.1 模型对于一个机器学习任务首先要确定其输入空间Χ和输出空间У不同机器学习任务的主要区别在于输出空间不同。在二分类问题У{1-1}在C分类问题中У{12…,C}而在回归问题中УR。输入空间Χ和输出空间У构成了一个样本空间。对于样本空间中的样本假设x和y之间的关系可以通过一个未知的真实映射函数来描述机器学习的目标是找到一个模型来近似真实映射函数。由于我们不知道真实的映射函数的具体形式因此只能根据经验来假设一个函数集合称为假设空间然后观测其在训练集D上的特性从中选择一个理想的假设。假设空间通常为一个参数化的函数族其中为参数为的函数也称为模型D为参数的数量。常见的假设空间可以分为线性和非线性两种对应的模型也称为线性模型和非线性模型。注根据训练样本提供的信息以及反馈方式的不同可将机器学习算法分为以下几类监督学习如果机器学习的目标是建模样本的特征x和标签y之间的关系yf(x;θ)并且训练集中每个样本都有标签那么这类机器学习称为监督学习根据标签类型的不同监督学习又可以分为回归问题、分类问题和结构化学习问题。回归问题中的标签y是连续值实数或连续整数yf(x;θ)的输出是个连续值。分类问题中的标签y是离散的类别在分类问题中学习到的模型也称为分类器。分类问题根据其类别数量又可分为二分类和多分类。结构化学习问题是一种特殊的分类问题。在结构化学习中标签y通常是结构化的对象如序列、树或图等。无监督学习是指从不包含目标标签的训练样本中自动学习到一些有价值的信息。典型的无监督学习问题又聚类问题、密度估计、特征学习、降维等。强化学习是一类通过交互来学习的机器学习算法。在强化学习中智能体根据环境的状态做出一个动作并得到即时或延时的奖励。智能体在和环境的交互中不断学习并调整策略以取得最大化的期望总汇报。监督学习需要每个样本都有标签而无监督学习则不需要标签一般而言监督学习通常需要大量的有标签数据集这些数据集一般都需要由人工进行标注成本很高因此也出现了很多弱监督学习和半监督学习的方法希望从大规模的无标注数据中充分挖掘有用的信息降低对标注样本数量的要求强化学习和监督学习的不同在于强化学习不需要显式地以“输入输出对”的方式给出训练样本是一种在线的学习机制4.1.1 线性模型线性模型的假设空间为一个参数化的线性函数族即其中参数包含了权重向量和偏置4.1.2 非线性模型广义的非线性模型可以写为多个非线性基函数的线性组合其中为K个非线性基函数组成的向量参数包含了权重向量和偏置。如果本身为可学习的基函数则可等价于多层的神经网络模型。4.2 学习准则训练集是由N个独立同分布的样本组成即每个样板是从的联合空间中按照某个未知分布独立地随机产生的。一个好的模型应该是在所的可能取值上都与真实映射函数一致即其中是一个很小的正数。模型的好坏可以通过期望风险来衡量其定义为其中为真实的数据分布为损失函数用来量化两个变量之间的差异。4.2.1 损失函数至于损失函数最直观的损失函数是模型在训练集上的错误率即0-1损失函数即虽然0-1损失函数能够客观的评价模型的好坏但其缺点是数学性质不是很好不连续且导数为0难以优化因此经常用连续可微的损失函数替代。如平方损失函数、交叉熵损失函数等等4.2.2 风险最小化准则一个好的模型应当由比较小的期望错误但由于不知道真实的数据分布和映射函数实际上无法计算其期望风险。我们可以在训练集D的基础上计算经验风险即在训练集上的平均损失因此一个切实可行的学习准则就是找到一组参数使得经验风险最小。4.2.3 过拟合与欠拟合根据大数定理可知当训练集大小趋于无穷大时训练风险就趋向于期望风险然而在通常情况下我们无法获取无限的训练样本并且训练样本往往是真实数据的一个很小的子集或者包含一定的噪声数据不能很好地反映全部数据的真实分布。经验风险最小化原则很容易导致模型在训练集上错误率很低但是在未知数据上错误率很高这就是所谓的过拟合。过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。为了解决过拟合问题一般在经验风险最小化的基础上再引入参数的正则化来限制模型能力使其不要过度地最小化经验风险。这种准则就是结构风险最小化准则。所谓参数的正则化是一种抑制模型过拟合的重要技术目标是在优化模型性能的同时提高其泛化能力。通过对模型参数施加约束正则化可以防止模型过度拟合训练数据而导致在测试数据上表现不佳。正则化的核心思想是在损失函数中加入一个惩罚项该惩罚项与模型的参数相关。通过限制参数的大小正则化鼓励模型选择更简单的解。这样可以避免模型训练上过渡复杂从而提高在新数据上的泛化能力。正则化的损失函数通常表示为其中即是经验风险的损失函数为正则项表示对参数的约束为正则化强度决定了正则化的权重。常规的正则化方法有几种如L1正则化L2正则化与过拟合相反的一个概念就是欠拟合即模型不能很好地地拟合训练数据在训练集上的错误率比较高。欠拟合一般是由模型能力不足造成的。总之机器学习中的学习准则并不仅仅是拟合训练集上的数据同时也要使得泛化错误最低给定一个训练集机器学习的目标是从假设空间中找到一个泛化错误较低的“理想”模型以便更好地对未知的样本进行预测特别是不在训练集中出现的样本因此我们可以将机器学习看作一个从有限、高维、有噪声的数据上得到更一般性规律的泛化问题4.3 优化算法在确定了训练集D、假设空间和学习准则后如何找到最优的模型就成了一个最优化问题。机器学习的训练过程其实就是最优化问题的求解过程。在机器学习中优化的对象可分为参数优化的超参数优化模型中的称为模型的参数可以通过优化算法进行学习。处理可学习的参数外还有一类参数用来定义模型结构或优化策略的这类参数称做超参数。常见的超参数包括聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数等超参数的选取一般都是组合优化问题很难通过优化算法进行自学习。因此超参数优化是机器学习的一个经验性很强的技术它通常要按照人的经验设定或者通过搜索的方法对一组超参数组合进行不断试错调整。在机器学习中最简单、常用的优化算法是梯度下降法即首先初始化参数然后通过下面的迭代公式来计算训练集D上风险函数的最小值 其中为第t次迭代时的参数值为搜索步长。在机器学习中一般称为学习率。梯度下降法的基本思想是从一个初始点出发沿着函数梯度的反方向即最陡峭的下降方向不断迭代更新参数直到达到一个极小值点。这个过程可以形象地理解为下山过程想象你站在山顶想要尽快下山最快的方式就是沿着最陡峭的方向往下走这就是梯度下降法的核心思想。梯度下降法有多种类型包括批量梯度下降法、随机梯度下降法和小批量梯度下降法它们在每次更新时使用的数据量不同从而在计算效率和精确性之间取得平衡