机器学习常见名词解释

学习算法:在计算机上从数据中产生模型的算法
示例(样本):数据集中每条关于一个事件或对象的记录
属性,特征:反映事件或对象在某方面的表现或性质的事项
属性值:属性上的取值
属性空间,样本空间,输入空间:属性张成的空间
特征向量:由于空间中的每个点对应一个坐标向量,因此我们把一个示例也称为特征向量
维数:一个示例Xi由N个属性来描述,我们便称样本有N维
学习,训练:从数据中学得模型的过程,这个过程通过执行某个学习算法来完成
训练数据:训练过程中使用的数据
训练样本:训练数据中的每一个示例(样本)
训练集:训练样本组成的集合
假设:学得模型对应了关于数据的某种潜在的规律
真相,真实:潜在规律的自身
学习器:模型的别称
预测:帮助判断某个假设(判断没剖开的是不是好瓜)
标记:示例结果的信息(好瓜,坏瓜)
样例:拥有了标记信息的示例
标记空间,输出空间:所有标记的集合
分类:预测的是离散值,例如“好瓜”,“坏瓜”
回归:预测的是连续值,例如西瓜成熟度0.95,0.98
正类,反类:只涉及两个类别的“二分类”任务
多分类:涉及多个类别时
测试:学得模型后,使用其进行预测的过程
测试样本:被预测的样本
聚类:将训练集中的训练样本瓜分成若干组
簇:每组称为一个簇,这些自动形成的簇可能对应一些潜在的概念
监督学习:训练数据有标记信息,代表为分类和回归
非监督学习:训练数据无标记信息,代表为聚类
泛化:学得模型适用于新样本的能力
独立同分布:获得的每个样本都是独立的从一个分布上采样获得的
归纳:从特殊到一般的泛化过程
演绎:从一般到特殊的特化过程
归纳学习:从样例中学习,归纳的过程,广义上的归纳学习大体相当于从样例中学习。狭义的归纳学习则要求从训练数据中学得概念,所以又称概念学习或概念形成。
假设空间:所有假设组成的空间
版本空间:与训练集一致(即对所有训练样本能够进行正确判断)的“假设集合”
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。例如模型更偏好根蒂来判断好瓜坏瓜。
奥卡姆剃刀:是一种常用的,自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”
没有免费的午餐定理NFL:无论算法多机智,期望性能相同
数据挖掘:从海量数据中发掘知识,对数据的管理和分析。
深度学习:狭义说是“很多层”的神经网络,缺乏严格的理论基础,设计的模型复杂度非常高,需要下功夫调参。
错误率与精度:分类错误的样本占样本总数的比例称为错误率,如果在m个样本中有a个样本分类错误,则错误率E=a/m;相应的1-a/m称为精度
过拟合:将训练样本自身的一些特点当做了所有潜在样本都会有的一般性质,这样就会导致泛化性能下降,称为过拟合。
欠拟合:与过拟合相对,对训练样本的一般性质尚未学好
评估方法-留出法:将训练集D划分为两个互斥的集合,其中一个集合作为训练集S。另一个作为测试集T,在S上训练处模型后,用T来评估其测试误差,作为对泛化误差的估计。不同的划分会导致不同的训练/测试集,所以单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随即划分,重复进行实验评估后取平均值作为留出法的评估结果。
分层采样:保留类别比例的采样方式
交叉验证法(k折交叉验证):先将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即通过分层采样得到。每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的事k个测试结果的均值。
自助法:我们希望评估的是D训练出的模型。但在留出法和交叉验证发中,由于保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比D小,这必然会引入一些因训练样本规模不同二导致的估计偏差。对于给定包含m个样本的数据集D,我们对它采样产生数据集D‘:每次随即从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果。显然。一部分样本会多次出现,另一部分不出现,样本在m次采样中始终不被采到的概率是(1-1/m)的m次方,取极限约等于0.368.于是我们将D’作为训练集,D/D’作为测试集,这样实际评估的模型与期望评估的模型都是用m个样本,而仍有数据总量三分之一的未在训练集中出现的样本用于测试,这样的测试结果也称作包外估计。自助法在数据集较小,难以划分训练/测试集时很有用。然而。自助法产生的数据改变了分布,引入了估计偏差,因此在初始数据量足够时,留出法和交叉验证法更常用。
错误率与精度:错误率是分类错误的样本数占样本总数的比例,精度=1-错误率
查准率与查全率:对于二分类问题,可将样例根据真实类别与学习期预测类别的组合划分为真正例(true positive),假正例(false positive),真反例(true negative),假反例(false negative)四种情形

真实情况 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

查准率: P=TP/TP+FP
查全率: R=TP/TP+FN

Newer Post

React Native

RN解决的问题设计理念:使用React Native开发,既拥有Native的良好人机交互体验,又保留了React框架的开发效率(TODO:开发效率莫非很高?)。其提供的解决方案可以称为“一次学习,随处编写(Learn once,write anywhere)” 重要特性与强项1.一次学习,随处编写 …

继续阅读
Older Post

机器学习及深度学习

一,机器学习:1.模式识别2.数据挖掘3.统计学习4.计算机视觉5.语音识别6.自然语言处理 二,学习思路 人类学习的思路:通过观察总结经验获取技能 机器学习的思路:通过数据积累(计算)经验获取技能有监督学习:给定输入,预测输出分类,回归半监督学习:使用部分有监督数据+无监督数据无监督 …

继续阅读