涉及内容
- 《机器学习》-刘志华-清华大学出版社
- machine-learning 斯坦福大学的Coursera教程
基本术语
说明:
这个世界上有N个西瓜,我们将所有的西瓜的数据全都记录下来
-
数据集(data set):
{(颜色:绿色; 尺寸:10; 形状:圆形; …), (颜色:绿色; 尺寸:14; 形状:方形; …), …}
-
示例(instance)/样本(sample):
例如(颜色:绿色; 尺寸:10; 形状:圆形; …)所代表的一个西瓜
-
属性(attribute)/特征(feature)
例如:颜色,尺寸,形状的…
-
属性值(attribute value):
绿色,10,圆形…
-
属性空间(attribute space)/样本空间(sample space)/输入空间(input space):
{颜色,尺寸,形状, …}
-
特征向量(feature vector):
一个示例在属性空间中,其属性代表坐标轴,则可找到一个点代表该示例
综上所述,包含m个示例的数据集可表示如下:
每个实例包含d个属性,该示例可以表示为d维样本空间\(\chi\)的一个向量\(x_{i}\):
其中,\(x_{ij}\)是\(x_{i}\)在第j个属性上的属性值,d为样本\(x_{i}\)的维数(dimensionality)
-
学习(learning)/训练(training):
从数据中得到模型的过程
-
训练数据(training data):
训练过程中使用的数据
-
训练样本(traing sample):
训练中使用的每一个样本
-
训练集(training set):
训练样本的集合
-
假设(hypothesis):
训练过程中获得的某种规律
-
真相/真实(ground-truth):
假设中存在的某种规律自身
-
模型(model)/学习器(learner):
学习算法在数据和参数空间上的实例化
-
标记(label):
关于实例结果的信息
-
样例(example):
拥有标记信息的实例
-
标记空间(label space)/输出空间(output space):
第i个样例可表示为\((x_{i},y_{i})\),其中\(y_{j}\in Y\)是实例\(x_{i}\)的标记,\(Y\)为所有标记的集合
-
分类(classification):
预测为离散值,例如“真”或者“假”
-
回归(regression):
预测为连续值,例如0.1,0.2,0.3
-
二分类(binary classification):
只涉及两个类别的任务,一为正类(positive class),另一为负类(negative class)
-
多分类(multi-class classification):
涉及多个类别的任务
综上所述,预测任务过程如下:
对训练集
进行学习,建立一个从输入空间\(\chi\)到输出空间\(Y\)的映射:
对于二分类任务,则\(Y={-1, +1}或者{0,1}\);
对于多分类任务,则$\lvert y\rvert >2$;
对于回归任务,则\(Y=R, R为实数集\)。
-
测试(testing):
使用模型进行预测的过程
-
测试样本(testing sample):
测试中的样本
-
聚类(clustering):
对训练集进行分类
-
簇(cluster):
聚类中的每一组,其代表某些潜在概念
-
监督学习(supervised learning):
含有标记信息的学习任务,例如分类和回归
-
无监督学习(unsupervised learning):
不含有标记信息的学习任务,例如聚类
-
泛化(generalization):
模型对于新样本的适应能力
-
归纳(induction):
从特殊到一般的“泛化”的过程,例如“归纳学习(inductive learning)”
-
演绎(deduction):
从一般到特殊的“特化”的过程
-
假设空间(hypothesis space):
所有样本组成的空间
-
版本空间(version space):
与训练集一致的假设空间
基础理论
奥卡姆剃刀(Occam’s razor)
一种常用的,自然科学研究中最基础的思考原则,或者说原理,即
Do not multiply entities beyond necessity, but also do not reduce them beyond necessity.
切勿浪费较多东西,去做‘用较少的东西,同样可以做好的事情’
换句话说,“若多个假设和观察一致时,选择最简单的那个”
“没有免费的午餐”定理(No Free Lunch Theorem, NFL定理)
没有优化算法适合于所有优化问题:只能说针对某一类优化问题,某某算法更有优势。而不能笼统的说,某种优化算法比另一种更优。
- 算法基于具体问题,才有“好算法”之说;
- 脱离具体问题,空谈“什么算法更好”毫无意义
本作品由陈健采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。