任务二:对电脑图像的智能识别和自动分类之前
在实现对电脑图像的智能识别和自动分类之前,本节课我们先学习两个知识点:
1. 计算机如何看世界?
揭秘计算机眼中的图像
2. 计算机如何理解世界?
揭秘图像识别、深度学习
计算机眼中的图像
在计算机的眼睛里,这个精彩的世界只是一堆死板的数字。如果将一幅图像放大 🔍 ,我们可以看到它是由一个个小方格组成的,每个小方格是一个色块。这个小方格我们叫它--像素。
像素
定义
像素(缩写为px)是图像中的最小单位,由一个个小方格组成。这些小方格都有一个固定的位置和颜色,共同决定了图像所呈现出来的样子。(每个像素都有一个固定的位置和颜色,共同决定了图像所呈现出来的样子。)
这些小方格的行数与列数又被叫做分辨率。
我们常说的某幅图像的分辨率是1280(长)×720(宽),指的就是这张图中的每一行都有1280个像素,每一列都有720个像素。
图像分辨率
定义
图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点。因此,图像分辨率和图像的像素有直接的关系。
图像分辨率的表达方式为: 水平像素数×垂直像素数长宽比通常是4:3,用于确定组成一幅图像的像素数目。例如,一张分辨率为640×480的图像,就达到了约30万像素;同样的,一张分辨率为1600×1200的图像,将达到约200万像素。
图像分辨率决定图像的质量。对于同样尺寸的一幅图,如果图像分辨率越高,则组成该图的图像像素数目越多,像素点也越小,图像越清晰、逼真,印刷的质量也就越好。当然,这也会增加文件占用的存储空间。
总结:
如果我们用不同的数字来表示不同的颜色,图像就可以表示为一个数字表,这就是计算机所看到的。该如何让计算机理解庞大的视觉信息,学会看懂这个世界呢?不妨来看看,人类是如何做到的。
我们生活在读图时代,身边充斥着各种视觉信息。我们的眼睛好比相机镜头负责采集图像,而进行识别和理解图像的则是大脑。例如,我们能轻易地分辨出生活中常见的事物。
但其实分辨对人类来说也并非易事。古有《史记》中记载,有奸臣赵高指鹿为马,混淆是非,成为笑谈。面对陌生的事物,我们也很难认清。识别陌生的事物要比识别出猫 🐱 或者飞机 ✈️ 这些常见的事物困难多了。
我们的视觉能力究竟是如何形成的?
人类拥有今天的视觉能力其实是大自然长期训练的结果。但对计算机来说,所有的事物都是陌生的。如何像人类一样,拥有识别和理解图像的视觉能力?这就是图像识别的任务。
图像识别
定义
图像识别是利用计算机对图像进行处理、分析和理解,从而识别出各种不同物体的技术。图像识别通常以图像的主要特征为基础。
隐喻
正如在生活中,我们能识别出飞机、人、汽车、交通标志等等,并且还能把收集到的信息做更多的处理。
在图像识别的原理上,计算机和人类并没有本质的区别。
当人类在识别某种物品的时候,也不单单是凭借这个物品存储在脑海中的记忆来识别的。
一般都是依靠事物本身所具有的特征,先将它进行分类。
总结:
计算机如何实现图像识别?
我们不妨来想象一下这个过程:
1. 给计算机看一些特定的图像,比如猫;
2. 用编程的语言告诉计算机这样一句话:
猫 🐱 有着圆脸,胖身子,两个尖尖的耳朵和一条长尾巴。
倘若到这里,计算机已经记住了猫🐱 的特征并且能够根据这个特征识别出猫了。
接下来,如果遇到这样的猫呢?
可能会识别失败。因为图中猫的侧面遮挡严重,缺少圆脸、两个尖尖的耳朵这些特征,计算机无法根据猫的特征作出判断。
同样的,如果遇到这些猫也可能会识别失败。
因为它们不能同时满足圆脸,胖身子,两个尖尖的耳朵和一条长尾巴这些特征,一旦特征不匹配,识别的效果就会大打折扣。可见,这个过程非常依赖人为对图像特征的提取。
例子:
比较 猫咪 小鸟 飞机 汽车
灵感缪斯
直到一个有趣的事实引起了大家的注意:人类幼崽大约2岁就能识别各类物体了,他是如何做到的?
我们的眼球转动一次的平均时间是200毫秒,如果把这每一次转动比作按下一次相机快门的话,一个2岁左右的孩子,已经看过上亿张现实世界的图片了。
显然,上亿张图片是一个海量的数据集。
从这个角度来看,能发现什么 🤔 ?
或许不是我们的研究方法不行 🙅 ,而是实验数据出了问题,数据量太少了,导致实验效果不好?
带着这个疑惑,李飞飞教授和实验室成员在2007年开始了一项伟大的工作--建立ImageNet数据集。
ImageNet约包含1500万张图片和2.2万个类别,是目前世界上图像识别最大的数据库。
它的出现改变了数据集的地位,人们开始意识到:
在人工智能领域,数据和方法一样重要。
数据就像燃料,推动着人工智能这枚火箭不断前进。
那计算机能自动学习特征吗?
答案是肯定的。
深度学习的出现解决了这个问题。
人类终于找到了处理“抽象概念”这个亘古难题的方法。
深度学习
定义
深度学习是一种在表达能力上灵活多变,同时又允许计算机不断尝试,直到最终逼近目标的机器学习方法。
它能学习样本数据的内在规律和表示层次,能自动从图像中学习有效的特征。
隐喻
就像我们在做题过程中,能不断地通过刷题获得解题方法和技巧一样。
深度学习来源于人工神经网络,之所以叫“深度”是因为它自身由许多不同的层组成。第一层一般以图像为输入,通过特定的运算从图像中提取特征。
接下来,每一层以前一层提取出的特征为输入,对其进行特定形式的变换,便可以得到更复杂一些的特征。
经过很多层的变换之后,这种结构就可以组合原始图像中的低层特征形成更加抽象的高层特征。
这种由简单到复杂、由低级到高级的抽象过程,可以通过生活中的例子来体会。
例如,人脸识别。
这种层次化的特征提取过程可以累加,赋予深度学习强大的特征提取能力。因此,深度学习更有能力发现大数据中隐含的复杂结构。
深度学习能发现大数据集中更复杂的数据关系
深度学习的深度是指网络结构的层数有很多
深度学习的最终目标是让机器能够像人一样具有分析学习能力
- 深度学习是机器学习的一个特定分支。
B. 传统的机器学习才依赖于人工提取特征。
D. 机器学习能解决的问题更多,对于一些简单分析和处理,机器学习更高效。