【class8】人工智能初步(图像识别-----卷积神经网络)

上节回顾

上节课,我们简单了解了图像识别和深度学习的相关知识。
快速回顾一下吧~

A图像识别是以图像的主要特征为基础的。
B. 图像分辨率决定图像的质量。

C. 像素是图像中的最小单位
D. 在图像识别的原理上,计算机和人类在本质上没有区别

E.人工智能的核心驱动力是机器学习, 而深度学习是机器学习的一个特定分支。

这节课,我们将更深入地了解:在图像识别领域,应用最为广泛的深度学习算法--卷积神经网络。并为实现“电脑图像的智能识别和自动分类”做一些前期准备。

深度学习的许多研究成果,离不开对大脑认知原理的研究,尤其是视觉原理的研究。在上面提到的典型算法中,卷积神经网络CNN就是受到人类视觉神经系统的启发,最擅长进行图像处理的一种算法。

输入层、输出层比较容易理解。在图像识别中,输入层输入的是图像,输出层输出的是识别结果。

那什么是隐含层呢?隐含层主要由卷积层、池化层和全连接层3类常见的结构组成。连接顺序通常为:卷积层-池化层-全连接层

                                      

比如,对这样⼀张 1000×1000 分辨率的图像,需要处理的参数就高达上百万个。这么⼤量的数据处理起来⾮常消耗资源,⽽且这还只是⼀张不算太⼤的图⽚。

池化层将复杂问题简单化,把大量参数降维成少量参数,再做处理。因为在大部分场景下,降维并不会影响结果比如,将这样一张图像从1000像素缩⼩到200像素,并不会影响我们识别男孩还是女孩,机器也是如此。

  1. 卷积层能够提取图像中的局部特征
  2. 池化层能够⼤幅降低参数量级
  3. 大部分情况下,降维并不会影响识别结果

D当图像的位置或者角度发⽣了变化,CNN也能有效的识别出来是类似的图像。

这些不同的层次,有什么作用 🤔
我们可以将卷积层和池化层看成图像自动提取特征的过程。在提取完成之后,仍然需要使用全连接层来完成分类任务。
深度学习需要输入的图像信息非常庞大。
只有经过卷积层和池化层降维过的数据,全连接层才能”跑得动”

卷积神经网络是一个多层结构

卷积神经网络的结构由输入层、隐含层和输出层组成

隐含层的结构由卷积层、池化层,全连接层组成

卷积神经网络最常用于图像处理

卷积神经网络的应用

卷积神经网络在图像领域的应用处处可见,比如:

1. 图像分类、检索

一项基础应用,能节省大量的人工成本,将图像进行有效的分类。

典型场景:图像搜索

橙色软件搜索同款用到的图像搜索

2. 目标定位检测

在图像中定位目标,并确定目标的位置及大小。

典型场景:自动驾驶、安防、医疗

开车外出用到的行车记录仪

3. 目标分割

简单理解就是一个像素级的分类

典型场景:视频后期加工、图像生成

P图用到的美图秀秀

4. 人脸识别

基于人的脸部特征信息进行身份识别的一种生物识别技术。

典型场景:安防、金融、生活

进出小区用到的人脸识别

5. 骨骼识别

识别身体的关键骨骼,以及追踪骨骼的动作。

典型场景:安防、电影、游戏、图像视频生成

互动游戏中实时评估人体姿态和动作轨迹的操作

面临的困难

既然卷积神经网络的应用如此广泛,我们能通过不停地加深网络,自己训练一款对图像处理表现更好的模型吗?现实往往没有这样简单。

我们以制造桌子为例:
木材就是数据,提供基础的素材;
制造桌子的流水线就是一套模型,其中包括了网络层数的设计,解决把木头变成桌子的问题;
工厂里的机器就是计算能力,机器越厉害,制造桌子的效率就越高,速度就越快。

模型设计

深度学习的“深”不仅代表着神经网络的层数之多,更进一步代表着模型参数之多。
但是网络的设计并不是简单的层数上的纵向堆叠,每一层的参数都需要不断反复的调试,投入大量的人力、物力和时间。
因此,绝大多数人只能使用现成的模型,而现成的模型往往又不能通用

数据

一个“见多识广”的模型,对实际问题的处理和表现才会更加准确。
这个过程可以分3步理解:
只有足够的数据作为深度学习的输入;
计算机才能学会以往只有人类才能理解的知识;
然后才能将这些知识应用到之前从来没有看见过的新数据上。

计算能力

大量的数据和参数需要大量的计算资源支持,因此越深越复杂的网络对计算资源的需求也越大。
即使一个简单的深度学习模型,跑一次数据的时间也短则数小时,长则数天,普通的电脑很难满足要求。

前面我们通过「情感倾向分析」这个接口,体验了在实际应用中,调用API的绝对优势。API的扩展性和灵活性是软件设计最美妙的艺术之一。在这里,我们同样采用这样的方式。

有了之前的基础,在这里,我们「接入百度智能云图像识别服务」只需3步:

a. 创建应用

b. 获取AppID、API Key和Secret Key

c. 导入和新建AipImageClassify

接下来,我们会完成这3步,做好实战准备。

在【创建应用】页面:

1. 为你的应用设定名称;

2. 领取接口的免费额度;

3. 对应用进行简短的描述;

4. 填写完毕后,选择【立即创建】完成操作。

b. 获取AppID、API Key和Secret Key

创建完成后,点击「查看应用详情」就可以看到AppID、API Key和Secret Key
这是系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证。
我们需要使用这三个ID来调用对应的API。

c. 导入和新建AipImageClassify

在上一个项目中,我们已经安装好了 Python SDK。
现在直接导入和新建AipImageClassify即可创建图像识别客户端。

创建图像识别客户端

代码的作用

AipImageClassify是图像识别的Python SDK客户端,为使用图像识别的开发人员提供了一系列的交互方法。
AipNlp一样,在使用之前,我们需要创建图像识别客户端。

代码:

# 从aip中导入AipImageClassify

from aip import AipImageClassify

# 存储访问密钥信息,包括客户端ID、API接口验证序号和API接口密钥

APP_ID = "10252021"

API_KEY = "ZHe7788sh11GEjIAdEKeY"

SECRET_KEY = "JMMzHe7788BUSH1ZhEnM1YUEhh"

# 新建一个AipImageClassify,并赋值给变量client

client = AipImageClassify(APP_ID, API_KEY, SECRET_KEY)

# 输出client

print(client)

分析代码:

导入AipImageClassify

创建图像识别客户端,首先要导入AipImageClassify。
这里,通过from...import...,从
aip中导入AipImageClassify,为我们提供图像识别的接口支持。

存储认证信息

导入后,我们需要使用获取的AppID、API Key和Secret Key来创建图像识别客户端AipImageClassify。
这里,为了方便使用,先将AppID、API Key和Secret Key以字符串的形式,依次赋值给变量APP_ID、API_KEY和SECRET_KEY。

新建AipImageClassify对象

只需把APP_ID、API_KEY和SECRET_KEY,依次传入AipImageClassify()函数中,即可新建一个AipImageClassify,也就是图像识别客户端。


这里,将返回的AipImageClassify对象赋值给变量client并输出。到这里,我们就完成了解决问题的第一步:接入百度智能云图像识别服务。磨刀不误砍柴工,这两节课,我们学习了很多图像识别和深度学习的知识。后面两节课,我们将进入实战部分,一起实现“电脑图像的智能识别和自动分类”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/627846.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

富唯智能复合机器人:CNC铝块上下料安全新标准

在CNC铝块加工过程中,上下料环节的安全问题一直是企业关注的焦点。富唯智能复合机器人的应用,为这一环节树立了新的安全标准。 传统的上下料方式往往依赖于人工操作,存在着较大的安全隐患。而富唯智能复合机器人采用先进的视觉识别技术和精准…

机器学习中常用的几种距离——欧式、余弦等

目录 一、欧式距离(L2距离)二、曼哈顿距离(L1距离)三、汉明距离四、余弦相似度 一、欧式距离(L2距离) (1)二维空间的距离公式(三维空间的在这个基础上类推)&…

【机器学习:IT行业的现在与未来】技术应用与趋势探索

🔥 个人主页:空白诗 文章目录 🎁 引言🌀 当前机器学习技术的深度剖析与实践展示🎯 算法与架构的革新轨迹📈 数据科学与基础设施的融合进化🔒 安全、隐私与伦理:技术的道德指南针&…

电子商务电商数据采集接口||电子商务市场数据采集方法,你学到了吗?

小刘从某职业院校电子商务专业毕业后,-直在某品牌电商部负责运营工作,近期,同班同学小王邀请小刘加入创业大军,共同开设网店,销售家乡的螃蟹、鲜虾、扇贝等生鲜水产。 运营经验丰富的小刘决定,在创业开始前…

需要无广告、结构化信息的搜索引擎?秘塔AI搜索,你的新选择

工欲善其事,必先利其器。 随着AI技术与各个行业或细分场景的深度融合,日常工作可使用的AI工具呈现出井喷式发展的趋势,AI工具的类别也从最初的AI文本生成、AI绘画工具,逐渐扩展到AI思维导图工具、AI流程图工具、AI生成PPT工具、AI…

数图智能营运管理系统助力企业数字化转型升级

数图智能营运管理系统不仅仅是一个业绩查看工具,它还具备了主动预警机制以及专家级的品类分析逻辑。系统能够协助企业持续优化库存管理,提升品类结构合理性,显著提高运营效率,减少对员工专业技能的依赖,并缩短处理时间…

【Image captioning】In Defense of Grid Features for Visual Question Answering实现流程

In Defense of Grid Features for Visual Question Answering实现流程 网格特征预训练代码 这是该论文的特征预训练代码发布: @InProceedings{jiang2020defense,title={In Defense of Grid Features for Visual Question Answering},author={Jiang, Huaizu and Misra, Ishan…

智能仪表在铁塔行业的应用

应用场景 可应用于基站的交直流配电箱及对基站内的动力设备进行数据采集和控制。 功能 1.对多个回路进行全电参量测量,实现基站内各回路用电能耗的集中管理; 2.丰富的DI/DO输入输出,NTC测温,温湿度测量等非电参量监测&#xff…

FreeRTOS开发一、FreeRTOS移植

1、FreeRTOS 源码下载 两个下载链接, 一个是官网:http://www.freertos.org/, 另外一个是代码托管网站:https://sourceforge.net/projects/freertos/files/FreeRTOS/ 打开代码托管网站链接,我们选择FreeRTOS 的版本 V9…

【iOS】工厂模式

文章目录 前言设计模式的三大原则简单工厂模式工厂方法模式抽象工厂模式关于三兄弟的升级与降级注意 前言 上文讲完了iOS的架构模式,接下来聊一聊设计模式,设计模式有许多,主要介绍一下工厂模式 设计模式的三大原则 S 单一职责原则 告诉我…

vue一个简易时钟

<template><div class"">时间{{ time }}<div class"base1"><div class"move-to-center line"></div><div class"move-to-center line line2"></div><div class"move-to-center lin…

Stable Diffusion入门使用技巧及个人实例分享--大模型及lora篇

大家好&#xff0c;近期使用Stable Diffusion比较多&#xff0c;积累整理了一些内容&#xff0c;得空分享给大家。如果你近期正好在关注AI绘画领域&#xff0c;可以看看哦。 本文比较适合已经解决了安装问题&#xff0c;&#xff08;没有安装的在文末领取&#xff09; 在寻找合…

wireshark_概念

ARP (Address Resolution Protocol&#xff09;协议&#xff0c;即地址解析协议。该协议的功能就是将IP地址解析成MAC地址。 混杂模式 抓取经过网卡的所有数据包&#xff0c;包括发往本网卡和非发往本网卡的。 非混杂模式 只抓取目标地址是本网卡的数据包&#xff0c;对于发往…

鲁大师2023两轮电动车行业调研报告

自2021年3月起&#xff0c;鲁大师已经连续两年发布涵盖了电动自行车、轻便电动摩托、中高端电动摩托等品类的《电动两轮车行业报告》。如今&#xff0c;在持续进军两轮电动车评测的基础上&#xff0c;通过线上线下多维度深入调研&#xff0c;鲁大师拟于近期发布《2023两轮电动车…

修改远程服务器Nginx默认端口

目录 前言 正文 尾声 &#x1f52d; Hi,I’m Pleasure1234&#x1f331; I’m currently learning Vue.js,SpringBoot,Computer Security and so on.&#x1f46f; I’m studying in University of Nottingham Ningbo China&#x1f4eb; You can reach me by url below:My Blo…

【python数据预处理系列】使用Pandas的factorize()函数进行类别编码(整数编码)

在Pandas中&#xff0c;factorize()函数主要用于将分类变量转换为整数编码&#xff0c;这对于减少内存使用或准备数据进行某些统计分析非常有用。 它实际上是将列的唯一值映射到从0开始的整数序列上。 假设有一个DataFrame&#xff0c;其中一列包含一些类别值&#xff0c;你希望…

关于电源1

电源的定义 广义定义&#xff1a;电源是将其它形式的能转换成电能的装置。 例如&#xff1a;发电机&#xff1a;将热能、水能、风能、核能、光照、震动等转化为电能的装置。 电池&#xff1a;将化学能转换为电能。 狭义定义&#xf…

哪个品牌led灯好?五大公认最好用的护眼台灯推荐!

哪个品牌led灯好&#xff1f;经过查找信息之后可以明确地看到市面上受好评比较多的护眼台灯是书客、松下、飞利浦等品牌&#xff0c;我也精心挑选了五款公认最优秀的护眼台灯进行推荐&#xff01;在现代生活中&#xff0c;护眼台灯不仅是照明工具&#xff0c;更是关乎眼部健康的…

GPT-4o API 全新版本发布:提升性能,增加性价比

5月13日&#xff0c;OpenAI 发布了全新ChatGPT模型 GPT-4o&#xff0c;它在响应速度和多媒体理解上都有显著提升。在这篇文章中&#xff0c;我们将介绍 GPT-4o 的主要特点及其 API 集成方式。 什么是 GPT-4o&#xff1f; GPT-4o 是 OpenAI 于5月13日发布的最新多模态 AI 模型…

嵌入式详细教程:基于STM32实现语音识别系统

目录 文章主题环境准备语音识别系统基础代码示例&#xff1a;实现语音识别系统应用场景&#xff1a;智能家居与便携设备问题解决方案与优化 1. 文章主题 文章主题 本教程将详细介绍如何在STM32嵌入式系统中使用C语言实现语音识别系统&#xff0c;特别是如何通过STM32与麦克风…