简单认识监督学习
- ⭐️Supervised learning
- ⭐️Examples
- ⭐️Specific example
- ⭐️两种类型的监督学习算法
- 🌙回归算法
- 🌙分类算法
- ⭐️总结
Hi~大家好呀!经历了暑假期间短暂的接触机器学习的一些算法,之后又对深度学习、yolo系列有些了解,还尝试着去学习完成one-stage目标检测,但是由于基础知识的不扎实,很多时候都在补窟窿。
所以我打算从0开始学习机器学习算法,根据吴恩达老师的完整课程,将学习笔记上传于此。
“我认为今天机器学习创造的价值的99%是通过一种机器学习称为
监督学习
完成的。”
⭐️Supervised learning
监督机器学习是指学习x到y
或者 输入到输出
映射的算法。
监督学习的关键特征是,我们自己提供学习算法示例以供学习。
这其实就是,给定输入x的正确标签y
,机器通过查看正确
的输入x
和所需的标签y
,最终学会学习算法。即,当我们只是给出输入x
,机器就能够给出合理准确的预测
或者猜想
。
⭐️Examples
- input 电子邮件
- output 垃圾邮件/非垃圾邮件
通过监督学习,将为我们提供垃圾邮件过滤器
的功能。
- input 音频
- output 文本转录本
这时,监督学习,就为我们提供语音识别
的功能。
- input English
- output 其他语言
这时,就实现了机器翻译
。
或者,我们可以将图片
作为输入
,比如说,刚下线的手机,将其图片作为输入,让学习算法根据输入的手机产品的 图片来判断
是否存在划痕、凹痕或者其他缺陷。
这个称为目视检查
,它可以帮助制造商减少或者防止其产品中的缺陷。
在上面的这些例子中,我们首先需要输入大量的示例
,即输入x和与其相对应的正确答案即标签y来训练我们的模型
。
在模型从这些输入、输出(x和相对应的y)中学习之后
,它们可以采用全新的输入x
(它以前从未见过的东西),并尝试产生适当的对应输出y
。
⭐️Specific example
下面让我们更深入地研究一个具体的示例。
房价预测问题。
假如我们想根据房屋地大小来预测房价,并且我们已经收集到了一些过去的数据,并绘制了数据。
这里的横轴是以平方英尺为单位的房屋大小,纵轴是房子的价格。
有了这些数据,假如你的一位朋友想直到他们750平方英尺的房子的价格是多少。那通过学习算法如何帮助到你的朋友呢?
学习算法可能会通过指向拟合数据,通过直线上的数据以及直线以外的读数,可以大概预测到房子大概可以卖到150,000美元。
但拟合直线并不是我们可以使用的唯一学习算法。还有更好的可以应用于此。
比如,我们用下面的曲线进行拟合:
这样看起来,你的朋友的房子可以接近于200,000美元的价格。
给你的朋友选择最好的价格出售并不合适,我们应该关注的一件事是,如何选择最合适的直线或者曲线来适应这个数据,给出最合适的数据。
以这个例子简单说明,我们首先为算法提供了一个数据集,这个数据集中的每个x即房屋的面积,都对应着一个正确答案,即标签y。
学习算法的任务就是通过对此数据集的学习,有一些“经验”,产生更多这样的正确答案,当我们利用这个算法时,为这个算法提供一个房屋的面积,它可以根据“以往经验”预测出可能的出售价格。
⭐️两种类型的监督学习算法
🌙回归算法
在上面我们看到的预测房价问题中,其就是和
回归算法
。它学习从无限多的数字中预测数字。它可能是150,000到300,000中的任意数字。
其实本质闪也就是说,我们需要预测的标签y是连续
的。
🌙分类算法
下面我们以乳腺癌检测为例,来研究分类算法。 假设我们要构建一个机器学习系统,以便医生可以使用诊断工具来检测乳腺癌。
我们根据患者的医疗记录,根据患者的肿瘤/肿块来判断乳腺癌是恶性的还是非恶性的。
然后我们收集一些数据,这些数据根据肿瘤的大小,将数据分为良性或者恶性。
比如说,下面,为了方便研究,我们将良性标注为0,恶性标注为1。
然后,我们将数据绘制在图表中,横轴代表肿瘤块的大小,纵轴仅仅取两个值,0和1,这是因为我们仅仅需要预测少量可能的输出或者类别。在这个例子中,仅仅有两个可能的输出,良性
或者恶性
,即0或1
。
这就是分类与回归的区别,分类算法就是仅仅需要预测可数个类别,而回归算法的预测,所可能的数字无限多。
因此,只有两种可能的输出这一事实构成了这种分类
。
我们可以使用两个符号进行更形象化表示,比如良性我们使用圆圈表示,恶性我们使用十字表示。
在上面我们的数据集只有一个输入,即患者肿瘤块的大小。为了更精确的预测,我们将我们的数据集的输入新增至两个,即肿瘤块的大小和患者的年龄。
所以这时医生就可以根据患者的肿瘤块的大小以及患者年龄,进行预测。
也就是,学习算法可能会做的就是找到一些将恶性肿瘤与良性肿瘤分开的边界。
也就是说,学习算法必须决定如何根据现有的数据集来拟合边界线。
⭐️总结
监督学习算法其实就是x到y的一种映射,也可以说是输入到输出的一种映射。
监督学习算法主要分为两类,回归算法和分类算法。
回归算法其实就是预测坐标轴的可能区间的无限个数。而分类算法预测结果就是坐标轴上的点。