绪论基本概念

1.1引言
问题
- 通过计算的手段,利用经验来改善系统自身的性能
- 有了数据
- 通过某种学习算法
- 得到模型
- 进行预测
1.2基本术语
1.有了数据
数据集:100个西瓜🍉
样本:1个西瓜
特征向量:
样本空间;
色泽、大小、敲起来的振幅;
维度
属性:色泽
2.通过某种学习算法
- 学习
- 训练
3.得到模型
有监督学习:
分类
二分类
Y 正负
瓜农眼中:这个瓜该不该摘,这个瓜熟没熟,我要不要摘

多分类
Y大于2
市场上要买哪种瓜
黑美人

小地雷

特小凤

回归
Y = R 实数集
某段时间内西瓜的价格,啥时间卖西瓜最合适

无监督学习:
聚类
我们不知道要分几类,机器自己分
每个组称为“簇” cluster
4.进行预测
- 测试
- 测试样本
- 泛化能力
1.3假设空间
科学的推理手段
归纳:特殊到一般
狭义:从训练数据中得到概念
布尔概念:是或不是
假设就是各种情况
广义:从样本中学习
演绎:一般到特殊
1.4归纳偏好
- 同一个数据集训练出了不同的模型,如何选择模型
- 原则:奥卡姆剃刀原理:选择最简单的那个,也有其他理解
- 推了半天期望,由于假设不成立,我们跳过,P8出现了很多符号