计算机视觉研究方向初学习,计算机视觉都有什么方向??!到底是干什么的?!

计算机视觉研究方向初学习,计算机视觉都有什么方向??!到底是干什么的?!

  • 语义分割
  • 图像分类
  • 目标检测和定位
  • 实例分割、全景分割
  • 物体跟踪
  • 姿态估计
  • 人脸识别
  • 人体识别
  • 图像增强
  • 风格迁移
  • 图像生成
  • 视觉问答
  • 视频分析
  • 光学字符识别

语义分割

**语义指具有人们可用语言探讨的意义,分割指图像分割。**语义分割即能够将整张图的每个部分分割开,使每个部分都有一定类别意义。和目标检测不同的是,目标检测只需要找到图片中目标,打上框然后分出类别。语义分割是以描边的形式,将整张图不留缝隙的分割成每个区域,每个区域是一个类别,没有类别的默认为背景background。
在这里插入图片描述
语义分割的例子:

这是一个骑马的照片,如上图的左边,这张照片中有马、汽车、人等多个对象。语义分割的任务就是将这张照片中的每一个像素都标记为相应的类别。

具体步骤如下:

  1. 原始图像:一张人骑马的照片。

  2. 语义分割模型:使用预训练的语义分割模型(例如U-Net, SegNet或DeepLab等),将输入图像进行处理。

  3. 输出图像:模型会输出一个与原始图像大小相同的图像,每个像素都有一个类别标签。如上图的右边。

  4. 结果解释:在输出图像中,每个像素被分配了一个颜色编码,代表不同的类别,例如:

    • 马用紫色表示
    • 人用粉色表示
    • 车用灰色表示
    • 其他用黑色表示

    通过这种方式,你可以直观地看到图像中不同对象的分布和边界。
    语义分割不仅能帮助理解图像中的内容,还能为许多应用提供支持,比如自动驾驶汽车需要准确识别道路和障碍物,医学影像分析需要区分不同的组织或病变区域。

图像分类

图像分类,核心是从给定的分类集合中给图像分配一个标签。
实际上,这意味着我们的任务是分析一个输入图像并返回一个将图像分类的标签。标签来自预定义的可能类别集。
更适用于图片比较单一的,一张图片只有一个物体的图片。
在这里插入图片描述
我们假定一个可能的类别集categories = {dog, cat, eagle},类别={狗、猫、鹰},之后我们提供一张图读取到分类系统
这里的目标是根据输入图像,从类别集中分配一个类别, 这里为dog我们的分类系统也可以根据概率给图像分配多个标签,如dog:95%,cat:4%,eagle:1%。
在这里插入图片描述

目标检测和定位

目标检测和定位是计算机视觉中的关键任务,旨在识别图像或视频中的目标对象,并确定其位置。目标检测不仅要识别出目标的类别(如人、车、动物等),还要在图像中框出这些目标的位置。
在这里插入图片描述

实例分割、全景分割

通常意义上的目标分割指的就是语义分割,图像语义分割,简而言之就是对一张图片上的所有像素点进行分类。
  语义分割(下图左)就是需要区分到图中每一点像素点,而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。
在这里插入图片描述
实例分割(上图右)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3…)

全景分割是语义分割和实例分割的结合。
  跟实例分割不同的是:实例分割只对图像中的object进行检测,并对检测到的object进行分割,而全景分割是对图中的所有物体包括背景都要进行检测和分割。
在这里插入图片描述
a图为原图,b图为语义分割,c图为实例分割,d图为全景分割

物体跟踪

物体跟踪的主要目标是在视频序列中跟踪目标物体的位置和状态。这个过程包括两个主要步骤:首先,在视频序列中检测目标物体;然后,跟踪目标物体的位置和状态。视频就是由一张一张的图片构成的。

姿态估计

人体姿态估计是指通过计算机算法在图像或视频中定位人体关键点
在这里插入图片描述
在这里插入图片描述

人脸识别

在这里插入图片描述
人脸识别作为一种生物特征识别技术,具有非侵扰性、非接触性、友好性和便捷性等优点。人脸识别通用的流程主要包括人脸检测、人脸裁剪、人脸校正、特征提取和人脸识别。人脸检测是从获取的图像中去除干扰,提取人脸信息,获取人脸图像位置,检测的成功率主要受图像质量,光线强弱和遮挡等因素影响。

人体识别

人体识别是计算机视觉中的一个重要分支,主要目的是识别和分析图像或视频中人体的特征和动作。
在这里插入图片描述
人体动作捕捉
基于视觉技术实现动作捕捉,得到人体的各个关节在空间中的移动和旋转数据,从而捕捉到完整的人体动作。如上图
在这里插入图片描述
人体关键点识别2D/3D
机器视觉技术实时检测分析人体肢体、手部、头部等肢体信息,可计算得出25个核心关键点三维坐标数据。如上图
在这里插入图片描述
人体姿态识别
机器视觉技术对人体动作特征进行提取、分类,识别出人体动作,得出动作信息。让机器“读懂”人的肢体语言。

图像增强

图像增强技术通过多种方法和技术手段,可以有效改善图像的质量和可视性,提升图像在各个领域的应用价值。
失焦模糊、运动模糊、低照图像恢复、hdr、超级夜景等提高图像质量的技术。
在这里插入图片描述
在这里插入图片描述

风格迁移

风格迁移是一种计算机视觉技术,旨在将一种图像的艺术风格应用到另一幅图像上,使其呈现出与原始风格类似的视觉效果。
风格迁移分为两类,一类为风格图片(毕加索、梵高.)一类 是内容图片,通常来自现实世界中大多数普通图像
效果逼真的风格迁移图片有两个要求,一是要生成的图片在内容、细节上和输入的内容图片保持一致,二是要生成的图片在风格上尽可能与风格图片保持一致。

比如:期望风格
在这里插入图片描述
风格迁移期待实现效果图:
在这里插入图片描述
在这里插入图片描述

图像生成

图像生成是一种技术,可以通过计算机自动创建新的图像。简单来说,就是用电脑画出原本不存在的图片。
举个例子:
你想要一张从来没有拍过的风景照片,但手头没有这样的照片。通过图像生成技术,电脑可以根据已有的风景照片样本,自动生成一张看起来像真实风景的图片。

视觉问答

想象一下,你有一张朋友聚会的照片,你可以问计算机“有多少个人在笑?”或者“桌子上有多少个饮料?”计算机会“看”这张照片,并根据问题“回答”你。这就是视觉问答的基本原理。比如GPT可以根据你发送的图片进行回答问题。

视频分析

视频分析是一种技术,用于自动分析视频内容,提取有用的信息。它结合了计算机视觉、机器学习和数据处理技术,可以实现从视频中识别和理解不同的场景、物体、行为等。
你有一段监控视频,想知道视频中有没有人进入某个区域。视频分析技术可以自动处理视频,识别并告知你是否有人进入该区域,以及具体的时间和行为。
想象你有一台智能摄像头,它不仅能录制视频,还能“看懂”视频内容。如果家里进了小偷,它能马上识别出来并给你发警报;如果商店里某个货架前顾客停留时间很长,它能告诉店主这个商品可能很受欢迎。这就是视频分析的基本原理和应用。

光学字符识别

光学字符识别(Optical Character Recognition,简称OCR)是一种将印刷或手写文本转换为机器可读文本的技术。简单来说,OCR可以让计算机“读懂”印刷或手写的文字,并将其转化为可编辑的电子文本。
举个例子
你有一页打印的书页,想把上面的内容变成电子文档。通过OCR技术,你可以用扫描仪扫描这页纸,然后OCR软件会自动识别上面的文字,将其转换成电脑上的文字文件。
想象你有一份很重要的手写笔记,想把它变成电子文档保存起来。用OCR技术,你只需要拍一张照片或扫描这份笔记,计算机就能自动识别上面的文字,并把它们转换成可以在电脑上编辑的文本文件。这就像给计算机装上了一双会读书的眼睛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/786824.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++视觉开发 七.模板匹配

模板匹配是一种基于图像处理的技术,用于在目标图像中寻找与给定模板图像最相似的部分。通过设定的模板,将目标图像与模板图像比较,计算其相似度,实现对目标图像的判断。 目录 一.手写数字识别 重要函数: 1.cv::glob…

【已解决】腾讯云安装了redis,但是本地访问不到,连接不上

汇总了我踩过的所有问题。 查看配置文件redis.conf 1、把bind 127.0.0.1给注释掉(前面加个#就是)或者改成bind 0.0.0.0,因为刚下载时它是默认只让本地访问。(linux查找文档里的内容可以输入/后面加需要匹配的内容,然后…

FAO(脂肪酸β-氧化,Fatty acid beta-oxidation)应用实例

一、FAOBlue及其香豆素衍生物的吸收光谱和荧光光谱 在PBS缓冲液(pH 7.4)中,FAO代谢后释放的FAOBlue和香豆素衍生物的吸收光谱(左)、荧光光谱(右)。 FAOBlue经过FAO转化为香豆素衍生物后&#…

同步时钟系统支持多种校时方式

在当今数字化、信息化高速发展的时代,时间的准确性和同步性变得至关重要。无论是金融交易、通信网络、交通运输,还是工业生产、科学研究等领域,都离不开一个精确且同步的时钟系统。而同步时钟系统之所以能够在众多领域发挥关键作用&#xff0…

使用Python绘制箱线图并分析数据

使用Python绘制箱线图并分析数据 在这篇博客中,我们将探讨如何使用Python中的pandas库和matplotlib库来绘制箱线图,并分析数据文件中的内容。箱线图是一种常用的图表类型,用于展示数据的分布情况及其统计特性,如中位数、四分位数…

程序员日志之DNF手游强化20攻略

目录 传送门正文日志1、概要2、炭的获取3、强化 传送门 SpringMVC的源码解析(精品) Spring6的源码解析(精品) SpringBoot3框架(精品) MyBatis框架(精品) MyBatis-Plus SpringDataJP…

全能型CAE/CFD建模工具SimLab 详解Part1: Geomtry,轻松集成力学、电磁学、疲劳优化等功能

SimLab的建模功能 SimLab集成了结构力学,流体力学,电磁学,疲劳和优化等功能,是全能型的CAE / CFD建模工具。 具有强大的几何、网格编辑功能,能够快速的清理复杂模型,减少手动修复的工作量,提高…

websocket推送消息,模拟推送

上一篇文章:什么是webSocket?以及它的一些相关理论知识 背景: MQTT 的发布/订阅模式与 WebSocket 的双向通信特性相结合。 通过将 MQTT 与 WebSocket 结合使用,可以在 Web 应用中实现高效、实时的消息传输,特别适用于…

C# 下sendmessage和postmessage的区别详解与示例

文章目录 1、SendMessage2、PostMessage3、两者的区别: 总结 在C#中,SendMessage和PostMessage是两个用于Windows编程的API,它们用于向窗口发送消息。这两个方法都位于System.Windows.Forms命名空间中,通常用于自动化Windows应用程…

AI应用观:从“卷模型”到“卷应用”的时代跨越

在2024年世界人工智能大会的舞台上,百度创始人李彦宏的发言如同一股清流,为当前如火如荼的人工智能领域注入了深刻的思考。他提出的“大家不要卷模型,要卷应用”的观点,不仅是对当前AI技术发展趋势的精准洞察,更是对未…

帮企建站包响应式建站源码系统 带完整的安装代码包以及搭建部署教程

系统概述 帮企建站包响应式建站源码系统是一款为企业和个人提供便捷、高效建站解决方案的工具。它融合了先进的技术和设计理念,旨在帮助用户轻松构建具有专业水准的网站,无论在桌面端还是移动端都能呈现出完美的展示效果。 该系统基于响应式设计原则&a…

C++ 信号量和锁的区别

网上关于信号量和锁的区别&#xff0c;写的比较官方晦涩难懂&#xff0c;对于这个知识点吸收难&#xff0c;通过示例&#xff0c;我们看到信号量&#xff0c;可以控制同一时刻的线程数量&#xff0c;就算同时开启很多线程&#xff0c;依然可以的达到线程数可控 #include <i…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第一篇 嵌入式Linux入门篇-第十六章 Linux 第一个程序 HelloWorld

i.MX8MM处理器采用了先进的14LPCFinFET工艺&#xff0c;提供更快的速度和更高的电源效率;四核Cortex-A53&#xff0c;单核Cortex-M4&#xff0c;多达五个内核 &#xff0c;主频高达1.8GHz&#xff0c;2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

mysql 5.7.44 32位 zip安装

前言 因为研究别人代码&#xff0c;他使用了5.7的 32位 mysql &#xff0c;同时最新的 8.4 64位 mysql 不能用官方lib连接。所以安装这个版本使用&#xff0c;期间有些坑&#xff0c;在这里记录一下。 下载路径 mysql官方路径&#xff1a;https://downloads.mysql.com/archi…

【c语言】轻松拿捏自定义类型

&#x1f31f;&#x1f31f;作者主页&#xff1a;ephemerals__ &#x1f31f;&#x1f31f;所属专栏&#xff1a;C语言 目录 前言 一、结构体 1.结构体类型的定义和使用 1.1 结构体类型声明 1.2 结构体变量的创建和初始化 1.3 结构体变量成员的访问 1.4 结构体的特殊声…

AI赋能OFFICE 智能化办公利器!

ONLYOFFICE在线编辑器的最新版本8.1已经发布&#xff0c;整个套件带来了30多个新功能和432个bug修复。这个文档编辑器无疑成为了办公软件中的翘楚。它不仅支持处理文本文档、电子表格、演示文稿、可填写的表单和PDF&#xff0c;还允许多人在线协作&#xff0c;并支持AI集成&…

linux 基础命令、gcc的基础用法

1、ls——>列出目录下的内容 语法&#xff1a;ls [-a -l -h] [Linux路径] &#xff08;1&#xff09;-a -l -h 是可选的选项 &#xff08;2&#xff09;Linux路径是此命令的可选参数 ①当不使用选项和参数&#xff0c;直接使用 ls 命令本体&#xff0c;表示&#xff1a;…

以终为始,胜意费控云「包干管控」助力精细管控与体验提升

在全球宏观经济环境的波动和内在经济逻辑的推动下&#xff0c;我国经济正经历着关键的结构调整期。如何稳健穿越周期&#xff0c;是企业必须直面的课题。与此同时&#xff0c;企业成本管控也面临着更为精细和严格的挑战。 企业需要一种更为灵活合理的费用管控策略。胜意费控云升…

3d模型墙模糊怎么回事?---模大狮模型网

在展览3D模型设计行业中&#xff0c;技术细节常常是设计师们需要面对和解决的关键问题之一。其中&#xff0c;3D模型墙模糊的现象可能会影响整个展览的视觉效果和观众的体验。本文将深入探讨这一问题的起因及解决方法&#xff0c;帮助设计师们更好地处理类似挑战。 一、问题的起…

Windows Server 2012 R2查看IIS版本

文章目录 一、方法一1.win R 键打开运行窗口 → 输入 "regedit" → 点击【确定】2.HKEY_LOCAL_MACHINE → SOFTWARE → Microsoft → InetStp 二、方法二1.win R 键打开运行窗口 → 输入 "inetmgr" → 点击【确定】2.点击 【帮助】 → 选择【关于 Intern…