计算机视觉中图像的基础认知

一、图像/视频的基本属性

在计算机视觉中,图像和视频的本质是多维数值矩阵。图像或视频数据的一些基本属性。

  • 宽度(W)高度(H) 定义了图像的像素分辨率,单位通常是像素。例如,一张 1920x1080 的图像有 1920 列(宽度)和 1080 行(高度)。
  • 通道(C) 表示图像的颜色空间,常见的有RGB(红、绿、蓝)三通道彩色图像和单通道灰度图像。

在深度学习框架中,通常使用四维数组 [batch_size, channel, height, width] 或简称 [N, C, H, W] 来表示一批图像的数据格式。而对于视频数据,我们则需要额外增加一个时间维度,即 [batch_size, channel, height, width, time_step],将视频拆解为单帧图像后,复用图像处理逻辑。

RGB三通道彩色图像和单通道灰度图像是数字图像处理中的两种基本类型,它们在色彩表示、数据存储以及应用场景等方面有着显著的区别。理解这两者的差异有助于更好地进行图像处理与分析。

二、理解彩色与灰度图像

2.1 RGB三通道彩色图像

  • 定义:RGB图像由红(Red)、绿(Green)、蓝(Blue)三个颜色通道组成。每个像素的颜色通过这三个通道的不同强度组合来表示。每个通道通常是一个8位的整数,取值范围为0到255。

  • 色彩表示

    • 每个像素点由三个数值(R, G, B)组成,分别对应红色、绿色和蓝色的强度。
    • 这种模式允许表示超过1600万种不同的颜色((256^3)),从而可以精确地再现自然界的大多数颜色。
  • 应用场景:适用于需要高保真度色彩再现的应用场景,如照片编辑、影视制作、游戏开发等。

2.2 单通道灰度图像

  • 定义:灰度图像仅包含一个通道,用来表示亮度信息。每个像素的值代表该点的亮度级别,范围通常是0(黑色)到255(白色),中间值则表示不同深浅的灰色。

  • 色彩表示

    • 因为只有一个通道,所以每个像素只需要一个数值来表示其亮度。
    • 尽管只能显示从黑到白的不同灰度级,但这种简化有时对于特定任务来说已经足够,并且能减少计算复杂度和存储需求。
  • 应用场景:常用于文本识别、边缘检测、医学影像分析等领域,在这些领域中,颜色信息并非关键因素,而对比度和亮度的变化更为重要。

2.3 区别总结

  1. 信息量

    • RGB图像包含了更多的信息(每个像素3个值),能够表达丰富的色彩。
    • 灰度图像每个像素只有1个值,信息量较少,但足以描述图像的亮度分布。
  2. 存储空间

    • RGB图像占用的空间大约是灰度图像的三倍,因为需要存储三个通道的数据。
  3. 处理速度

    • 处理灰度图像通常比处理RGB图像更快,因为它涉及的数据量较小。
  4. 用途

    • RGB图像适合于那些依赖色彩区分的任务,比如物体识别、场景分类等。
    • 灰度图像更适合于那些基于形状或纹理特征的任务,例如文档扫描、X光片分析等。
  5. 转换关系

    • 可以通过一定的算法将RGB图像转换为灰度图像,常用的方法之一是加权平均法,即根据人眼对不同颜色敏感度的不同,给RGB分量赋予不同的权重来计算灰度值。例如,常用的公式为:Gray = 0.299*R + 0.587*G + 0.114*B

三、图像的读取框架

Python 生态中有三大主流图像处理库,各有适用场景:

3.1 Matplotlib

Matplotlib 是一个强大的数据可视化工具,它模仿了 Matlab 的绘图功能。虽然它没有内置的图像处理功能(如旋转、滤波),需手动实现。但可以方便地与 科学计算库NumPy 结合使用来进行图像操作。

from matplotlib import pyplot as plt
import numpy as np
# 读取为 [H, W, C] 的 NumPy 数组(RGB)
img = plt.imread("哪吒.jpeg")        
H, W, C = img.shape
print(img.shape) # 输出(2160, 3840, 3)
# 显示图像
plt.imshow(img)                     
# 保存图像
plt.imsave("哪吒output.jpeg", img)       

在这里插入图片描述

# 提取红色通道并显示为灰度图
img_r = img[:, :, 0]
plt.imshow(img_r, cmap="gray")

在这里插入图片描述

# 下采样(每4像素取1个)
plt.imshow(img[::4, ::4, :])

从尺度上看,图像的像素点少了 4 分之 1
在这里插入图片描述

# 截取左上角 1/4 图像
plt.imshow(img[:H//2, :W//2, :])

在这里插入图片描述

3.2 OpenCV

OpenCV 是计算机视觉领域的金标准库,功能全面,覆盖图像处理、视频分析、实时摄像头捕获,底层为 C++ 实现,Python 通过 cv2 模块调用,支持特征检测、目标跟踪、AR 等高级功能。

通过 pip install opencv-python 即可安装。

import cv2

# 读取图像
# 读取为 [H, W, C] 的 BGR 格式数组
img = cv2.imread(filename="哪吒.jpeg")          
print(img.shape)  # 注意OpenCV默认读取为BGR格式
# 显示图像
cv2.imshow(winname = "Window", mat=img)             
# 等待按键
cv2.waitKey(delay=0)                        
# 关闭窗口
cv2.destroyAllWindows()               

使用 OpenCV 库从摄像头捕获视频流并在窗口中实时显示每一帧,直到用户按下 ESC 键退出


# 视频读取示例
# 创建一个 VideoCapture 对象,参数 0 表示使用第一个可用的摄像头(笔记本内置摄像头或连接的第一个外置摄像头)。如果你有多个摄像头,可以通过改变这个数字来选择不同的设备(如第二个摄像头可以使用 1)。
cap = cv2.VideoCapture(0)
# 开始一个无限循环,用于持续读取和处理视频帧,直到满足特定条件退出循环。
while True:
	# 读取帧
	# cap.read(): 从摄像头读取下一帧。此方法返回两个值:
	# status: 布尔值,表示是否成功读取了帧。如果为 True,则表示成功读取;如果为 False,则表示读取失败。
	# frame: 当前捕获的帧,通常是一个 NumPy 数组,包含图像数据。
    status, frame = cap.read()
    if not status: 
    	break
    # 显示帧
    # 在名为 "demo" 的窗口中显示当前帧 frame
    # 每次调用此函数都会更新窗口中的图像。
    cv2.imshow(winname="demo", mat=frame)
    # 按 ESC 退出
    # 等待按键事件。参数 delay 指定了等待的时间(以毫秒为单位)。
    # 这里设置为 1000 // 24,即大约每秒24帧的速度(模拟电影的帧率),这意味着每帧之间会有短暂的延迟。
	# 如果检测到按下了 ESC 键(ASCII码为27),则跳出循环并结束程序。
    if cv2.waitKey(delay=1000 // 24) == 27: 
    	break
# 释放摄像头资源,确保摄像头不再被占用,以便其他应用程序可以访问它。
cap.release()
# 关闭所有由 OpenCV 创建的窗口,释放相关资源。
cv2.destroyAllWindows()

3.3 PIL

PIL (Python Imaging Library) 轻量级图像处理, 是专门用于图像处理的 Python 库,Python 内置库,适合简单编辑与格式转换。易于使用且能无缝衔接 PyTorch。

from PIL import Image

img = Image.open("哪吒.jpeg")          # 读取为 PIL.Image 对象
print(img.size, img.width) # 输出 (3840, 2160) 3840
img.resize((100, 100))                # 调整尺寸
img.rotate(-20)                       # 旋转
img.convert("L")                      # 转灰度图
np.array(img).shape
img.save(fp="哪吒2.jpeg")              # 保存

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/969641.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【React】组件通信

组件通信 父传子 - props function Article(props) {return (<div><h2>{props.title}</h2><p>{props.content}</p><p>状态&#xff1a; {props.active ? 显示 : 隐藏}</p></div>) } // 设置默认值方式一 // 使用 defaultPr…

Tomcat添加到Windows系统服务中,服务名称带空格

要将Tomcat添加到Windows系统服务中&#xff0c;可以通过Tomcat安装目录中“\bin\service.bat”来完成&#xff0c;如果目录中没有service.bat&#xff0c;则需要使用其它方法。 打到CMD命令行窗口&#xff0c;通过cd命令跳转到Tomcat安装目录的“\bin\”目录&#xff0c;然后执…

基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

一、介绍 蘑菇识别系统&#xff0c;本系统使用Python作为主要开发语言&#xff0c;基于TensorFlow搭建卷积神经网络算法&#xff0c;并收集了9种常见的蘑菇种类数据集【“香菇&#xff08;Agaricus&#xff09;”, “毒鹅膏菌&#xff08;Amanita&#xff09;”, “牛肝菌&…

124 巨坑uni-app踩坑事件 uniCloud本地调试服务启动失败

1.事情是这样的 事情是这样的&#xff0c;我上午在运行项目的时候还是好好的&#xff0c;我什么都没干&#xff0c;没动代码&#xff0c;没更新&#xff0c;就啥也没干&#xff0c;代码我也还原成好好的之前的样子&#xff0c;就报这个错&#xff0c;但是我之前没用过这个服务呀…

Android Studio “Sync project with Gradle Files”按钮消失——文件层级打开不对

问题出现的背景 Android Studio显示&#xff0c;后来查找解决方案&#xff0c;里面提到“Sync project with Gradle Files”按钮&#xff0c;一检查发现自己的软件上面没有这个选项&#xff0c;于是参考 https://debugah.com/android-studio-can-not-find-sync-project-with-g…

什么是HTTP Error 429以及如何修复

为了有效管理服务器资源并确保所有用户都可以访问&#xff0c;主机提供商一般都会对主机的请求发送速度上做限制&#xff0c;一旦用户在规定时间内向服务器发送的请求超过了允许的限额&#xff0c;就可能会出现429错误。 例如&#xff0c;一个API允许每个用户每小时发送100个请…

LAWS是典型的人机环境系统

致命性自主武器系统&#xff08;Lethal Autonomous Weapons Systems&#xff0c;LAWS&#xff09;是一种典型的人机环境系统&#xff0c;它通过高度集成的传感器、算法和武器平台&#xff0c;在复杂的战场环境中自主执行任务。LAWS能够自主感知环境、识别目标、做出决策并实施攻…

IC-Portrait:打造逼真个性化肖像的新纪元!

在数字内容创作、虚拟形象、游戏和增强现实等领域&#xff0c;肖像生成已成为计算机图形学研究的热点。尽管近年来肖像生成模型取得了显著进展&#xff0c;能够生成越来越逼真和吸引人的肖像&#xff0c;但仍面临诸多挑战。 今天&#xff0c;给大家介绍一种个性化肖像生成框架I…

ubuntu服务器部署

关闭欢迎消息 服务器安装好 ubuntu 系统后&#xff0c;进行终端登录&#xff0c;会显示出很多的欢迎消息 通过在用户的根目录下执行 touch .hushlogin 命令&#xff0c;再次登录终端就不会出现欢迎消息 修改hostname显示 修改 /etc/hostname 文件内容为主机名&#xff0c;保…

【第3章:卷积神经网络(CNN)——3.5 CIFAR-10图像分类】

嘿,小伙伴们,今天咱们来聊聊一个超级酷炫的话题——卷积神经网络(CNN)及其在CIFAR-10图像分类中的应用。这不仅仅是一个技术话题,更是一场探索人工智能奥秘的旅程。准备好了吗?咱们这就发车! 一、CNN:人工智能的“千里眼” 首先,咱们得知道CNN是啥。CNN,全名Convol…

腿足机器人之二- 运动控制概览

腿足机器人之二运动控制概览 高层运动规划MPCRL 中层逆运动学和逆动力学底层执行器控制传感器校正 上一篇博客是腿足机器人的骨架和关节的机械和电气组件&#xff0c;关节不仅需要通过机械设计实现复杂的运动能力&#xff0c;还必须通过电子组件和控制系统来精确控制这些运动。…

无人机信号调制技术原理

一、调制技术的必要性 频谱搬移&#xff1a;将低频的基带信号搬移到高频的载波上&#xff0c;便于天线辐射和传播。 信道复用&#xff1a; 利用不同的载波频率或调制方式&#xff0c;实现多路信号同时传输&#xff0c;提高信道利用率。 抗干扰&#xff1a; 通过选择合适的调…

Python 闭包与装饰器

前言&#xff1a;之前讲完了面向对象的三大特征&#xff0c;这篇讲解的是闭包与装饰器&#xff08;作用域&#xff0c;nonlocal关键字&#xff0c;global关键字&#xff09; 闭包 定义 闭包是指有权访问另一个函数作用域中变量的函数。简单来说&#xff0c;即使该函数已经执行…

【Flink快速入门-4.流处理之基于 Key 的算子】

流处理之基于 Key 的算子 实验介绍 在 SQL 中我们经常会用到分组&#xff08;group by&#xff09;操作&#xff0c;在 group 关键词之后指定要聚合的键&#xff0c;在 group 之前指定要聚合的逻辑&#xff08;计数、求和、求最大值等&#xff09;&#xff0c;通过分区键将数…

sib报错:com.*.xctrunner is not in your device!

1、问题描述 在使用sonic集成IOS设备的时候,我们需要通过sonic-agent服务去识别IOS设备。但是在识别的时候提示如下问题: 本质就是在你这个设备中找不到这个设备也就是找不到WebDriverAgentRunner,但是确实安装了,甚至appium可以正常的调用。 或执行如下命令的时候报错:…

数据结构与算法-队列

参考学习&#xff1a;B站-逊哥带你学编程 队列的定义与实现 队列的顺序结构实现 #define MAXSIZE 100 typedef int ElemType;typedef struct {ElemType data[MAXSIZE];int front;int rear; }Queue;图示&#xff1a; 队列的顺序结构-初始化 void initQueue(Queue *Q) {Q->…

SQL联合查询

文章目录 MySQL系列&#xff1a;1.内连接2.外连接3.自连接4.子查询5.合并查询6.插入查询 MySQL系列&#xff1a; 初识MySQL&#xff0c;MySQL常用数据类型和表的操作&#xff0c;增删改查(CRUD)操作(总),数据库约束数据库设计 #班级表 drop table if exists class; create ta…

急停信号的含义

前言&#xff1a; 大家好&#xff0c;我是上位机马工&#xff0c;硕士毕业4年年入40万&#xff0c;目前在一家自动化公司担任软件经理&#xff0c;从事C#上位机软件开发8年以上&#xff01;我们在开发C#的运动控制程序的时候&#xff0c;一个必要的步骤就是确认设备按钮的急停…

哈希表-三数之和

代码随想录-刷题笔记 15. 三数之和 - 力扣&#xff08;LeetCode&#xff09; 内容&#xff1a; 这道题讲真真挺有意思的。双指针的用法很巧妙&#xff0c;而且去重的细节多到离谱。 哈希表本身的做法我没搞懂&#xff0c;而且确实复杂的很。既然有更好的方法就一步到位 本…

边缘计算网关功能优势及带来的数据处理变化

边缘计算是一种分布式计算架构&#xff0c;其核心思想是将数据处理、存储和服务功能移近数据产生的边缘位置&#xff0c;即接近数据源和用户的位置&#xff0c;而不是依赖中心化的数据中心或云计算平台。这种计算模式通过在靠近终端设备的位置进行数据处理&#xff0c;旨在降低…