1.熟悉、梳理、总结数据分析实战中的AI图像识别等实战研发知识体系,这块领域很大,需要耗费很多精力,逐步总结、更新到位,,,
2.欢迎点赞、关注、批评、指正,互三走起来,小手动起来!
文章目录
- 1.常用术语清单
1.常用术语清单
-
序号 常用术语 – 解释说明 1 图像识别与计算机视觉 – 图像识别是计算机视觉的一种应用,它包括一组任务,包括对象检测和图像分类 2 对象定位 – 对象定位是指识别图像中一个或多个对象的位置并围绕其周边绘制边界框。但是,对象定位不包括检测到的对象的分类。 3 图像检测 – 图像检测是将图像作为输入并在其中查找各种对象的任务。目标只是将一个对象与另一个对象区分开来,以确定图片中存在多少不同的实体。因此,围绕每个单独的对象绘制边界框。 4 图像识别 – 识别图像中感兴趣的对象并识别它们属于哪个类别或类别的任务 5 图像识别的传统计算机视觉方法 – 图像过滤、分割、特征提取和基于规则的分类的序列 6 机器学习的图像识别 – 使用算法从好的和坏的样本数据集中学习隐藏的知识(监督学习)。最流行的机器学习方法是深度学习,其中在一个模型中使用多个隐藏层。 7 图像识别系统的过程 – 1.带有训练数据 2.神经网络训练 3.模型测试 8 用于图像识别的机器学习模型 支持向量机(SVM) SVM 通过制作包含目标对象的图像和不包含目标对象的图像的直方图来工作。然后,该算法获取测试图片并将经过训练的直方图值与图片各个部分的值进行比较以检查是否匹配。 9 用于图像识别的机器学习模型 特征模型(特征提取算法) 袋特征模型,如尺度不变特征变换 (SIFT) 和最大稳定极值区域 (MSER),通过获取要扫描的图像和要找到的对象的样本照片作为参考来工作。然后尝试将样本照片中的特征与目标图像的各个部分进行像素匹配,以查看是否找到匹配项。 10 用于图像识别的机器学习模型 Viola-Jones 算法 Viola-Jones 算法 是CNN(卷积神经网络)时代之前广泛使用的面部识别算法,它通过扫描面部并提取特征,然后将这些特征传递给增强分类器来工作。反过来,这会生成许多用于检查测试图像的增强分类器。为了找到成功的匹配,测试图像必须从这些分类器中的每一个生成正结果。 11 用于图像识别的深度学习模型 卷积神经网络(CNN) 卷积神经网络(CNN)的使用也被称为深度图像识别。CNN 是传统机器学习方法无法比拟的。CNN 不仅速度更快,而且它们还可以从图像中检测一个对象的多个实例,即使图像稍微扭曲、拉伸或以其他某种形式改变。 12 用于图像识别的深度学习模型 – YOLO、SSD 和 RCNN等最流行的深度学习模型使用卷积层来解析图像或照片。 13 流行的图像识别算法 更快的基于区域的 CNN (Faster RCNN) Faster RCNN(Region-based Convolutional Neural Network)是R-CNN系列图像识别算法中性能最好的,包括R-CNN和Fast R-CNN。Faster RCNN 可以在 200 毫秒内处理一张图像,而 Fast RCNN 需要 2 秒或更长时间。 14 流行的图像识别算法 单次检测器 (SSD) RCNN 围绕图像上的一组建议点绘制边界框,其中一些点可能重叠。Single Shot Detectors 通过将图像划分为不同纵横比的网格形式的默认边界框来离散化这一概念。然后结合以不同纵横比处理图像获得的特征图,以自然地处理不同大小的对象。这使得 SSD 非常灵活、准确且易于训练。SSD 的实现可以在 125 毫秒内处理图像。 15 流行的图像识别算法 YOLO 该算法使用固定的网格大小只处理一次帧,然后确定网格框是否包含图像。该算法在每个网格框内使用置信度度量和多个边界框,没有涉及多个纵横比或特征图的复杂性,因此,虽然这可以更快地产生结果,但它们的准确性可能不如 SSD。YOLO 最时尚的变体 Tiny YOLO 可以以高达 244 fps 的速度处理视频或以 4 ms 的速度处理 1 张图像。 16 图像识别应用领域 – 医学图像分析,动物监测,照片识别和视频识别技术可用于识别人物、图案、标志、物体、地点、颜色和形状,食物图像识别 17 图像识别的挑战 视角变化(viewpoint variation) 一张物体在不同角度的拍摄下也会有不一样的效果 18 图像识别的挑战 比列变换(scale variation) 物体不仅仅在图像中存在大小差异,同时在现实生活中也存在大小差异 19 图像识别的挑战 形变(deformation) 许多感兴趣的对象不是刚体,可以以极端方式变形 20 图像识别的挑战 遮挡(occlusion) 可以遮挡感兴趣的对象。 有时只能看到对象的一小部分(少至几个像素) 21 图像识别的挑战 光照条件(illumination conditions) 照明的影响在像素级别上是剧烈的 22 图像识别的挑战 背景杂波(bakground clutter) 感兴趣的对象可能会融入其环境,使其难以识别 23 图像识别的挑战 类内变异(intra-class variation) 感兴趣的对象通常比较广泛,比如椅子。这些对象有许多不同的类型,每种类型都有自己的外观 24 图像为什么要灰度化 – 识别物体,最关键的因素是梯度(SIFT/HOG),梯度意味着边缘,这是最本质的部分,而计算梯度,自然就用到灰度图像了,可以把灰度理解为图像的强度 25 图像为什么要灰度化 – 颜色,易受光照影响,难以提供关键信息,故将图像进行灰度化,同时也可以加快特征提取的速度 26 仿射不变性 – 平面上任意两条线,经过仿射变换后,仍保持原来的状态(比如平行的线还是平行,相交的线夹角不变等) 27 什么是局部特征 – 局部特征从总体上说是图像或在视觉领域中一些有别于其周围的地方;局部特征通常是描述一块区域,使其能具有高可区分度;局部特征的好坏直接会决定着后面分类、识别是否会得到一个好的结果。 28 局部特征应该具有的特点 – 可重复性、可区分性、准确性、有效性(特征的数量、特征提取的效率)、鲁棒性(稳定性、不变性) 29 SIFT特征提取的实质 特征检测算法 用于检测角、斑点、圆等。它还用于缩放图像。在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出、不会因光照、仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。 30 定向梯度直方图HOG特征提取的实质 特征检测算法 通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。 31 加速鲁棒特征(SURF) 特征检测算法 SURF主要是把SIFT中的某些运算作了简化。SURF把SIFT中的高斯二阶微分的模板进行了简化,使得卷积平滑操作仅需要转换成加减运算,这样使得SURF算法的鲁棒性好且时间复杂度低。SURF最终生成的特征点的特征向量维度为64维。 32 定向快速旋转简报ORB 特征检测算法 ORB特征描述算法的运行时间远优于SIFT与SURF,可用于实时性特征检测。ORB特征基于FAST角点的特征点检测与描述技术,具有尺度与旋转不变性,同时对噪声及透视仿射也具有不变性,良好的性能使得用ORB在进行特征描述时的应用场景十分广泛。目前正在你的手机和应用程序中使用,例如 Google 照片,你可以在其中对人进行分组,你看到的图像是根据人分组的。 33 LBP 特征检测算法 LBP(Local Binary Pattern),局部二值模式是一种描述图像局部纹理的特征算子,具有旋转不变性与灰度不变性等显著优点。LBP特征描述的是一种灰度范围内的图像处理操作技术,针对的是输入源为8位或16位的灰度图像。LBP特征是高效的图像特征分析方法,经过改进与发展已经应用于多个领域之中,特别是人脸识别、表情识别、行人检测领域已经取得了成功。LBP特征将窗口中心点与邻域点的关系进行比较,重新编码形成新特征以消除对外界场景对图像的影响,因此一定程度上解决了复杂场景下(光照变换)特征描述问题。 34 HAAR 特征检测算法 人脸检测最为经典的算法Haar-like特征+Adaboost。这是最为常用的物体检测的方法(最初用于人脸检测),也是用的最多的方法。 35 Harris角点检测 特征检测算法 用于检测输入图像中的角点 36 特征匹配 特征检测算法 比较两个图像的特征,这两个图像可能在方向、视角、亮度上不同,甚至大小和颜色也不同。 37 图像的种类 灰度图 黑白照片,单通道 38 图像的种类 彩色图像 RGB、HSV、YUV、CMYK、Lab。通常我们做特定颜色检测的时候,一般选择用HSV空间的图像,H:色彩,S:饱和度,V:明度。 39 空域与频域 图像处理算法-图像变换 由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,有时候需要将空间域变换到频域进行处理。例如:傅立叶变换、沃尔什变换、离散余弦变换等 40 几何变换 图像处理算法-图像变换 图像平移、旋转、镜像、转置 41 色度变换 图像处理算法-图像变换 – 42 尺度变换 图像处理算法-图像变换 图像缩放、插值算法(最近邻插值、线性插值、双三次插值) 43 灰度变换增强 图像增强 线性灰度变换、分段线性灰度变换、非线性灰度变换 44 直方图增强 图像增强 直方图统计、直方图均衡化 45 图像平滑/降噪 图像增强 邻域平均法、加权平均法、中值滤波、非线性均值滤波、高斯滤波、双边滤波 46 图像(边缘)锐化 图像增强 梯度锐化,Roberts算子、Laplace算子、Sobel算子等 47 阈值分割 图像分割 固定阈值分割、最优/OTSU阈值分割、自适应阈值分割 48 基于边界分割 图像分割 Canny边缘检测、轮廓提取、边界跟踪 49 Hough变换 图像分割 直线检测、圆检测 50 基于区域分割 图像分割 区域生长、区域归并与分裂、聚类分割 51 色彩分割 图像分割 – 52 分水岭分割 图像分割 – 53 几何特征 图像特征 位置与方向、周长、面积、长轴与短轴、距离(欧式距离、街区距离、棋盘距离) 54 形状特征(几何形态分析(Blob分析) 图像特征 矩形度、圆形度、不变矩、偏心率、多边形描述、曲线描述 55 幅值特征 图像特征 矩、投影 56 直方图特征(统计特征) 图像特征 均值、方差、能量、熵、L1范数、L2范数等;直方图特征方法计算简单、具有平移和旋转不变性、对颜色像素的精确空间分布不敏感等,在表面检测、缺陷识别有不少应用 57 颜色特征 图像特征 颜色直方图、颜色矩 58 局部二值模式( LBP)特征 图像特征 LBP对诸如光照变化等造成的图像灰度变化具有较强的鲁棒性,在表面缺陷检测、指纹识别、光学字符识别、人脸识别及车牌识别等领域有所应用。由于LBP 计算简单,也可以用于实时检测。 59 轮廓匹配 图像/模板匹配 – 60 归一化积相关灰度匹配 图像/模板匹配 – 61 不变矩匹配 图像/模板匹配 – 62 最小均方误差匹配 图像/模板匹配 – 63 贝叶斯分类 表面缺陷目标识别算法-传统方法 – 64 K最近邻(KNN) 表面缺陷目标识别算法-传统方法 – 65 人工神经网络(ANN) 表面缺陷目标识别算法-传统方法 – 66 支持向量机(SVM) 表面缺陷目标识别算法-传统方法 – 67 K-means 表面缺陷目标识别算法-传统方法 – 68 OpenCV 常用的视觉检测软件/库 OpenCV是Intel开源计算机视觉库。其核心由一系列 C 函数和少量 C++ 类构成,实现了图像处理和计算机视觉方面的很多通用算法。OpenCV 的特点拥有包括300多个C函数的跨平台的中、高层 API 跨平台:Windows, Linux;免费(FREE):无论对非商业应用和商业应用;速度快;使用方便。 69 传统的目标检测算法 目标检测算法 Cascade + HOG/DPM + Haar/SVM以及上述方法的诸多改进、优化 70 基于候选区域(Region Proposal)/框 + 深度学习分类 目标检测算法 通过提取候选区域,并对相应区域进行以深度学习方法为主的分类的方案,如:R-CNN(Selective Search + CNN + SVM),SPP-net(ROI Pooling),Fast R-CNN(Selective Search + CNN + ROI),Faster R-CNN(RPN + CNN + ROI),R-FCN等系列方法 71 基于深度学习的回归方法 目标检测算法 YOLO/SSD/DenseBox 等方法;以及最近出现的结合RNN算法的RRC detection;结合DPM的Deformable CNN等 72 图像超分辨率 – 超分辨率(Super Resolution,SR)是从给定的低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉的一个经典应用。 73 图像去雨、去雾 – 雨水去除的方法试图从由雨水条纹和雨水累积(或雨水幕效应)退化的图像中恢复干净的背景场景。 74 图像去雨、去雾 – 图像去雾的目的是消除雾霾环境对图像质量的影响,增加图像的可视度,是图像处理和计算机视觉领域共同关切的前沿课题。 75 图像去模糊去噪 – 图像的运动模糊就是一种典型的图像退化现象。图像运动模糊是指图像中的移动效果,通常会出现在长时间曝光或被拍摄物体移动太快的情况下,由于拍摄时相机与物体之间发生了相对位移,图像上就会出现运动模糊。 76 图像分割 – 指根据颜色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。 77 语义分割 – 将图像中的每一个像素关联到一个类别标签上的过程,这些标签可能包括一个人、一辆车、一朵花、一件家具等 78 姿态估计 – 人体关键点检测(Human Keypoints Detection)又称为人体姿态估计,是计算机视觉中一个相对基础的任务,是人体动作识别、行为分析、人机交互等的前置任务。一般情况下可以将人体关键点检测细分为单人/多人关键点检测、2D/3D关键点检测,同时有算法在完成关键点检测之后还会进行关键点的跟踪,也被称为人体姿态跟踪。 79 人脸 – Arcface人脸识别模块,在五百亚洲人底库中精度可达99%+ 80 行人重识别(Person Re-identification) – 行人重识别(Person Re-identification)又被称为行人再识别,如今被视为图像检索的一类关键子问题。它是利用计算机视觉算法对跨设备的行人图像或视频进行匹配,即给定一个查询图像,在不同监控设备的图像库检索出同一个行人. 81 多目标跟踪 ,即Multiple Object Tracking (MOT) – 主要任务中是给定一个图像序列,找到图像序列中运动的物体,并将不同帧的运动物体进行识别,也就是给定一个确定准确的id,当然这些物体可以是任意的,如行人、车辆、各种动物等等,而最多的研究是行人跟踪,由于人是一个非刚体的目标,且实际应用中行人检测跟踪更具有商业价值。 绝大多数MOT 算法无外乎这四个步骤:①检测 ②特征提取、运动 82 文本理解 – 一个是传统的文本理解,它往往只需识别文档中的文本 83 文本理解 – 另一个场景文字理解,需要将照片或视频中的文字识别出来,它包含文本检测和文本识别两个步骤:首先是对存在文字区域的定位(Text Detection),即找到单词或文本行的边界框(bounding box);然后对定位的区域内容进行识别(Text Recognition),即预测边界框中每一个字符的类标签。将这两步合在一起就能达到最终目的:端到端的文本识别。 84 医学图像数据特点 – 可获得、质量高、体量大、标准统一等特点,使人工智能在其中的应用较为成熟 85 多模态学习 模态 每一种信息的来源或者形式,都可以称为一种模态,例如:触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字;传感器,如雷达、红外、加速度计。 86 多模态学习 多模态机器学习(MultiModal Machine Learning (MMML) 旨在通过机器学习的方法实现处理和理解多源模态信息的能力 87 小样本学习 Few-shot learning (FSL) 机器学习领域具有重大意义和挑战性,是否拥有从少量样本中学习和概括的能力,是将人工智能和人类智能进行区分的明显分界点,因为人类可以仅通过一个或几个示例就可以轻松地建立对新事物的认知,而机器学习算法通常需要成千上万个有监督样本来保证其泛化能力。 88 Viola-Jones算法 – CNN(卷积神经网络)时代之前广泛使用的面部识别算法,用于面部识别的最著名的工具之一。它扫描人脸,从人脸中提取一些特征,并对其进行分类。它还使用了一种增强算法,旨在帮助进行更准确的分类。 89 面部识别 – 人脸分析是一种主要的识别应用。许多公司都使用它来同时检测不同的人脸,例如,为了知道图像中有多少人。警方和安全部队可以使用人脸识别来识别罪犯或受害者。人脸分析涉及性别检测、情绪估计、年龄估计等。 90 特征脸 – Eigenfaces 是一种人脸检测和识别方法,用于确定图像数据集中的人脸方差。它使用这些差异通过机器学习对人脸进行编码和解码。一组特征脸是通过对大量人脸图像的统计分析确定的“标准化人脸成分”的集合。面部特征被分配了数学值,因为这种方法不使用数字图片,而是使用统计数据库。任何人脸都是这些值以不同百分比的组合。 91 Fisherfaces – Fisherfaces 是最流行的面部识别算法之一;作为 Eeigenfaces 算法的改进,被认为在训练过程中的类别区分方面更成功。该算法的主要优势在于它能够对光照和面部表情变化进行内插和外推。有报告称,在预处理阶段与 PCA 方法结合时,Fisherfaces 算法的准确度为 93%。 92 皮肤纹理分析 – 皮肤识别技术有很多应用——人脸检测算法、不良图像过滤、手势分析等。 93 皮肤纹理分析 – 它通常使用高分辨率图像。皮肤纹理分析的特殊情况使用不同的独特参数,如痣、肤色、肤色等。最近基于纹理特征和肤色组合的研究显示了有趣的结果。研究人员使用神经网络来开发和测试皮肤识别系统。项目中使用的前馈神经网络将输入纹理图像分类为“皮肤”和“非皮肤”,并表现出令人印象深刻的性能。 94 FaceNet – Google研究人员于 2015 年开发的人脸识别系统 FaceNet 基于人脸识别基准数据集。可用的预训练模型和各种开源第三方实现使该系统非常广泛。 95 FaceNet – FaceNet 在研究调查、测试性能和准确性方面显示出出色的结果。FaceNet 准确提取人脸嵌入,高质量特征用于后期训练人脸识别系统。