1.1 Mediapipe随手简记(一)

为了后续项目展开,需要Python、C++、Linux、OpenCV、Mediapipe、ROS知识。

最后面有手势识别(数字)精准案例,项目会用到。

Mediapipe学习篇1

Mediapipe 是一个开源的跨平台框架,它提供了大量的解决方案,用于构建高性能、跨平台的计算机视觉应用。Mediapipe 使用计算图(Calculation Graph)来表示算法的执行流程,可以轻松地组合和扩展不同的算法模块。

1. Mediapipe 简介

1.1 Mediapipe 的起源和发展

Mediapipe 由 Google Research 于 2020 年推出,旨在为计算机视觉研究人员和开发者提供一个易于使用、高性能的框架。Mediapipe 提供了多种预训练模型和算法,涵盖了人脸检测、手势识别、姿态估计等领域。

1.2 Mediapipe 的特点和优势

  • 易于使用:Mediapipe 的 API 设计简洁易懂,易于学习和使用。
  • 高性能:Mediapipe 使用计算图优化算法的执行流程,可以实现高性能的实时处理。
  • 跨平台:Mediapipe 支持多种操作系统,包括 Windows、Linux、Mac OS、Android 和 iOS。
  • 模块化:Mediapipe 的算法模块是可插拔的,可以轻松地组合和扩展不同的算法。

2. Mediapipe 安装和配置

2.1 Mediapipe 安装

Mediapipe 可以通过 pip 包管理工具进行安装:

pip install mediapipe

2.2 Mediapipe 配置

安装 Mediapipe 后,你需要在代码中导入 mediapipe 模块才能使用其功能。

3. Mediapipe 基础

3.1 计算图 (Calculation Graph)

计算图是 Mediapipe 的核心概念,它用于表示算法的执行流程。计算图由节点 (Node) 和边 (Edge) 组成,节点表示算法模块,边表示数据流。 示例(非完全)

# 创建计算图
mp_drawing = mp.solutions.drawing_utils
mp_hands = mp.solutions.hands
# 创建 Hand 类实例
hands = mp_hands.Hands()
# 读取图像
img = cv2.imread('image.jpg')
# 将图像转换为 RGB 格式
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)
# 绘制手势关键点
if results.multi_hand_landmarks:
    for hand_landmarks in results.multi_hand_landmarks:
        mp_drawing.draw_landmarks(
            img,
            hand_landmarks,
            mp_hands.HAND_CONNECTIONS,
        )
# 显示图像
cv2.imshow('Image', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

3.2 节点 (Node)

节点是计算图中的基本单元,它表示一个算法模块。每个节点都可以接收输入数据,并生成输出数据。 示例

# 创建 Hand 类实例
hands = mp_hands.Hands()

3.3 边 (Edge)

边是连接节点的数据流,它表示节点之间的数据传递关系。 示例

# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)

3.4 数据流

数据流是节点之间传递的数据,它可以是图像、关键点、检测框等。在 Mediapipe 中,数据流通常使用 NormalizedLandmarkListDetectionLandmarks 等数据结构来表示。 示例(非完全)

# 创建 Hand 类实例
hands = mp_hands.Hands()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)
# 获取手势关键点
if results.multi_hand_landmarks:
    for hand_landmarks in results.multi_hand_landmarks:
        # hand_landmarks 是一个 NormalizedLandmarkList 对象
        # 它包含手部的 21 个关键点的位置信息
        for landmark in hand_landmarks.landmark:
            # landmark 是一个 Landmark 对象
            # 它包含关键点的 x, y, z 坐标
            x = landmark.x
            y = landmark.y
            z = landmark.z

数据结构说明

  • NormalizedLandmarkList:表示一组归一化的关键点,其中每个关键点的坐标值都在 0 到 1 之间。
  • Detection:表示一个检测框,包含检测框的位置、置信度等信息。
  • Landmarks:表示一组关键点,包含关键点的坐标信息。

4. Mediapipe 常用算法模块

4.1 人脸检测

Mediapipe 提供了人脸检测模块,可以用于检测图像或视频中的 faces。 示例(非完全)

mp_face_detection = mp.solutions.face_detection
# 创建 FaceDetection 类实例
face_detection = mp_face_detection.FaceDetection()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 检测图像中的人脸
results = face_detection.process(img_rgb)
# 绘制人脸矩形框
if results.detections:
    for detection in results.detections:
        mp_drawing.draw_detection(img, detection)

4.2 手势识别

Mediapipe 提供了手势识别模块,可以用于识别图像或视频中的手势。 示例(非完全)

mp_hands = mp.solutions.hands
# 创建 Hand 类实例
hands = mp_hands.Hands()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)
# 绘制手势关键点
if results.multi_hand_landmarks:
    for hand_landmarks in results.multi_hand_landmarks:
        mp_drawing.draw_landmarks(
            img,
            hand_landmarks,
            mp_hands.HAND_CONNECTIONS,
        )

4.3 姿态估计

Mediapipe 提供了姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全)

mp_pose = mp.solutions.pose
# 创建 Pose 类实例
pose = mp_pose.Pose()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = pose.process(img_rgb)
# 绘制姿态关键点
if results.pose_landmarks:
    mp_drawing.draw_landmarks(
        img,
        results.pose_landmarks,
        mp_pose.POSE_CONNECTIONS,
    )

4.4 目标跟踪

Mediapipe 提供了目标跟踪模块,可以用于跟踪图像或视频中的目标。 示例(非完全)

mp_objectron = mp.solutions.objectron
# 创建 Objectron 类实例
objectron = mp_objectron.Objectron()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = objectron.process(img_rgb)
# 获取目标信息
if results.multi_object_detections:
    for detection in results.multi_object_detections:
        # detection 是一个 Detection 对象
        # 它包含目标的检测框、置信度等信息
        bounding_box = detection.bounding_box
        score = detection.score

示例(非完全)

mp_objectron = mp.solutions.objectron
# 创建 Objectron 类实例
objectron = mp_objectron.Objectron()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = objectron.process(img_rgb)
# 获取目标信息
if results.multi_object_detections:
    for detection in results.multi_object_detections:
        # detection 是一个 Detection 对象
        # 它包含目标的检测框、置信度等信息
        bounding_box = detection.bounding_box
        score = detection.score

4.5 人体姿态估计

Mediapipe 提供了人体姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全)

mp_pose = mp.solutions.pose
# 创建 Pose 类实例
pose = mp_pose.Pose()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = pose.process(img_rgb)
# 获取姿态关键点
if results.pose_landmarks:
    # results.pose_landmarks 是一个 Landmarks 对象
    # 它包含人体姿态的 33 个关键点的位置信息
    for landmark in results.pose_landmarks.landmark:
        # landmark 是一个 Landmark 对象
        # 它包含关键点的 x, y, z 坐标
        x = landmark.x
        y = landmark.y
        z = landmark.z

4.6 表情识别

Mediapipe 提供了表情识别模块,可以用于识别图像或视频中的表情。 示例(非完全)

mp_face_mesh = mp.solutions.face_mesh
# 创建 FaceMesh 类实例
face_mesh = mp_face_mesh.FaceMesh()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = face_mesh.process(img_rgb)
# 获取面部关键点
if results.multi_face_landmarks:
    for face_landmarks in results.multi_face_landmarks:
        # face_landmarks 是一个 Landmarks 对象
        # 它包含面部 478 个关键点的位置信息
        for landmark in face_landmarks.landmark:
            # landmark 是一个 Landmark 对象
            # 它包含关键点的 x, y, z 坐标
            x = landmark.x
            y = landmark.y
            z = landmark.z

5. Mediapipe 高级功能

5.1 自定义模型

Mediapipe 支持自定义模型,允许开发者使用自己的模型进行图像处理、计算机视觉和机器学习等任务。这可以通过以下步骤实现:

  1. 训练模型:使用如 TensorFlow、PyTorch 等深度学习框架训练你的模型。
  2. 导出模型:将训练好的模型导出为 ONNX 或 TF Lite 等格式。
  3. 加载模型:在 Mediapipe 中加载导出的模型。
  4. 使用模型:在处理图像时,使用加载的模型进行预测。

示例

# 加载自定义模型
model = load_model('path_to_custom_model')
# 使用自定义模型处理图像
predictions = model.predict(img)

5.2 性能优化

Mediapipe 提供了多种性能优化工具,可以帮助开发者提高算法的执行效率。以下是一些性能优化的方法:

  1. CPU/GPU 加速:Mediapipe 可以使用 CPU 或 GPU 进行加速,提高算法的执行效率。在构建计算图时,可以通过指定 .with_cpu() 或 .with_gpu() 方法来选择使用 CPU 或 GPU。
    # 使用 CPU 进行加速
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5)
    # 使用 GPU 进行加速
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
  2. 量化模型:Mediapipe 支持量化模型,可以减小模型的体积,提高模型的执行速度。在构建计算图时,可以通过指定 .with_default_model_complexity() 方法来选择模型复杂度,从而实现量化。
    # 选择模型复杂度为 1,进行量化
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
  3. 模型剪枝:Mediapipe 支持模型剪枝,可以去除模型中不必要的参数,提高模型的执行速度。在构建计算图时,可以通过指定 .with_default_model_complexity() 方法来选择模型复杂度,从而实现模型剪枝。
    # 选择模型复杂度为 1,进行模型剪枝
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)

5.3 跨平台支持

Mediapipe 支持多种操作系统,包括 Windows、Linux、Mac OS、Android 和 iOS。这使得开发者可以轻松地将 Mediapipe 应用到不同的平台上。

6. Mediapipe 数据结构

Mediapipe 中的数据结构用于存储和传递计算图中的数据。以下是 Mediapipe 中一些常用的数据结构:

6.1 NormalizedLandmarkList

NormalizedLandmarkList 是一个数据结构,用于存储归一化的关键点坐标。每个关键点坐标都是相对于输入图像的尺寸归一化的。

class NormalizedLandmarkList:
    num_landmarks: int
    landmark: List[NormalizedLandmark]

其中,num_landmarks 是关键点的数量,landmark 是一个包含所有关键点的列表,每个关键点是一个 NormalizedLandmark 对象。

6.2 Detection

Detection 是一个数据结构,用于存储检测框的位置、置信度等信息。

class Detection:
    bounding_box: BoundingBox
    score: float
    classification: Classification

其中,bounding_box 是检测框的位置,score 是置信度,classification 是分类信息。

6.3 Landmarks

Landmarks 是一个数据结构,用于存储关键点的坐标信息。

class Landmarks:
    num_landmarks: int
    landmark: List[Landmark]

其中,num_landmarks 是关键点的数量,landmark 是一个包含所有关键点的列表,每个关键点是一个 Landmark 对象。

6.4 BoundingBox

BoundingBox 是一个数据结构,用于存储检测框的位置。

class BoundingBox:
    origin: Origin
    size: Size

其中,origin 是检测框的左上角坐标,size 是检测框的尺寸。

6.5 Classification

Classification 是一个数据结构,用于存储分类信息。

class Classification:
    label: str
    score: float

其中,label 是分类标签,score 是置信度。

6.6 Origin

Origin 是一个数据结构,用于存储位置信息。

class Origin:
    x: float
    y: float

其中,x 和 y 是位置坐标。

6.7 Size

Size 是一个数据结构,用于存储尺寸信息。

class Size:
    width: float
    height: float

其中,width 和 height 是尺寸大小。 通过这些数据结构,Mediapipe 可以有效地存储和传递计算图中的数据,使得开发者可以轻松地构建和运行复杂的计算机视觉应用。

手势识别代码案例(精准)

代码地址:Mediapipe_hand_detect: 这份代码是使用Mediapipe进行手势识别,超精准

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/668165.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL十部曲之九:MySQL优化理论

文章目录 前言概述查询优化查询执行计划EXPLAIN获取表结构信息获取执行计划信息 EXPLAIN 输出格式如何使用EXPLAIN进行优化 范围访问优化单列索引的范围访问多列索引的范围访问 索引合并优化索引合并交叉访问算法索引合并联合访问算法索引合并排序联合访问算法 索引下推优化连接…

随身wifi网络卡顿怎么解决?随身WiFi哪个牌子的最好用?排名第一名的随身WiFi!

对于随身wifi靠不靠谱这个问题,网上一直存在争议。很多人的随身wifi网速不稳定,信号看着满格就是上不了网。关于随身wifi卡顿到底该怎么解决呢? 1.如果是设备网络在一个地方上网速度很快,换一个地方网络就不行了,很可能…

爬虫学习2

中国国家地理网 单张图片爬取 import requests url http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AWujSAA_-xvEYLbU441.jpg!rw9 headers {"User-Agent": Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0…

CC工具箱使用指南:【山西省村规结构调整表(亦求长生亦求你)】

一、简介 群友定制工具。 工具根据输入的用地图层,生成山西村规的结构调整表。 和一般的用地表有些不一样的地方是,现状和规划字段都在同一个图层里。 并且还有一个【村庄名称】的字段,可以将多个村庄放在一个图层中,一次性生…

简介项目管理七步训练与站上山顶

前言 麦肯锡七步成诗法,实际上并非用于创作诗歌,而是一种解决问题的方法,它源自于全球知名的管理咨询公司麦肯锡(McKinsey & Company)。 这种方法强调逻辑清晰、结构化思维,用于解决商业问题非常有效。这种创意思维方法被广泛应用于问题解决和创新过程中。以下是“麦…

【设计模式深度剖析】【7】【结构型】【享元模式】| 以高脚杯重复使用、GUI中的按钮为例说明,并对比Java类库设计加深理解

👈️上一篇:外观模式 | 下一篇:结构型设计模式对比👉️ 设计模式-专栏👈️ 目录 享元模式定义英文原话直译如何理解?字面理解例子:高脚杯的重复使用例子:GUI中的按钮传统方式使用享元模式 4个角色1. …

html期末复习速览

一.基础标签 1.段落标签<p></p> 特点&#xff1a;分段分割 2.标题标签<h1></h1>……<h6></h6> 特点&#xff1a;文字加粗&#xff0c;单独占一行 3.换行标签<br /> 特点&#xff1a;单标签&#xff0c;强制换行 二.文本格式化…

流媒体内网穿透/组网/视频协议转换EasyNTS上云网关如何更改密码?

EasyNTS上云网关的主要作用是解决异地视频共享/组网/上云的需求&#xff0c;网页对域名进行添加映射时&#xff0c;添加成功后会生成一个外网访问地址&#xff0c;在浏览器中输入外网访问地址&#xff0c;即可查看内网应用。无需开放端口&#xff0c;EasyNTS上云网关平台会向Ea…

备忘录--

备忘录 vue新建项目&#xff0c;body 大小占不了全屏 // 解决问题 // public/index.html 更改基础样式 html,body{height: 100%width: 100%&#xff1b;margin: 0;border: 0;padding: 0; }Element Plus 经典布局 参考 Element Plus 官网 <template><div class"…

jmeter性能测试用例提取

性能测试用例提取参考(根据单、混合场景、模块、运行时间、优先级)去考虑 Tips&#xff1a;用例提取和用例设计不一样 后期可以结合性能测试用例设计(设置线程数、时间、循环、同步定时器等等&#xff09;来做性能测试

从零到一建设数据中台 - 关键技术汇总

一、数据中台关键技术汇总 语言框架&#xff1a;Java、Maven、Spring Boot 数据分布式采集&#xff1a;Flume、Sqoop、kettle 数据分布式存储&#xff1a;Hadoop HDFS 离线批处理计算&#xff1a;MapReduce、Spark、Flink 实时流式计算&#xff1a;Storm/Spark Streaming、…

VB.net进行CAD二次开发(四)

netload不能弹出对话框&#xff0c;参考文献2 参考文献1说明了自定义菜单的问题&#xff0c;用的是cad的系统命令 只要加载了dll&#xff0c;自定义的命令与cad的命令同等地位。 这时&#xff0c;可以将自定义菜单的系统命令替换为自定义命令。 <CommandMethod("Add…

开源代码分享(32)-基于改进多目标灰狼算法的冷热电联供型微电网运行优化

参考文献&#xff1a; [1]戚艳,尚学军,聂靖宇,等.基于改进多目标灰狼算法的冷热电联供型微电网运行优化[J].电测与仪表,2022,59(06):12-1952.DOI:10.19753/j.issn1001-1390.2022.06.002. 1.问题背景 针对冷热电联供型微电网运行调度的优化问题&#xff0c;为实现节能减排的目…

换电脑怎么软件搬家?最好的8个电脑迁移软件

您知道何时需要数据迁移吗&#xff1f;比方说。您可能需要数据迁移以确保安全、备份或将操作系统升级到最新版本。您对迁移软件有任何了解吗&#xff1f;如您所想&#xff0c;我们将在本文中提供有关数据迁移软件的信息。让我们继续阅读。 最佳数据迁移软件列表 数据的完整性在…

深入探讨npm、Yarn、pnpm和npx之间的区别

前端生态系统是一个快速发展的领域&#xff0c;充满了各种工具和技术。对于开发人员来说&#xff0c;跟上这些创新可能是一项艰巨的挑战。 在本文中&#xff0c;我们将深入探讨npm、Yarn、pnpm和npx之间的区别&#xff0c;帮助你理解每个工具的不同之处。 包管理器比较 npm …

视频监控汇聚EasyCVR助力山体滑坡/自然灾害可视化监测与应急救援

近日&#xff0c;巴布亚新几内亚恩加省遭遇山体滑坡&#xff0c;持续引发关注。截至5月29日&#xff0c;恩加省山体滑坡导致的遇难人数可能超过2000人。据悉&#xff0c;巴布亚新几内亚恩加省位于巴布亚新几内亚中部高原的西部&#xff0c;地形多山。由于事发地区相对偏远&…

Excel-多级联动下拉选择

Excel-多级联动下拉选择 1、定义名称 &#xff08;1&#xff09;省-市 &#xff08;2&#xff09;市-区 同样的操作将区也加入 2、设置下拉单元格 &#xff08;1&#xff09;省 &#xff08;2&#xff09;市 INDIRECT($F$2)&#xff08;3&#xff09;区 INDIRECT($G$2)

RabbitMQ(四)事务消息,惰性队列,优先队列

文章目录 事务消息概念配置 惰性队列概念应用场景 优先队列概念配置 事务消息 仅在生产者端有效&#xff0c;消费端无效 概念 总结&#xff1a; 在生产者端使用事务消息和消费端没有关系在生产者端使用事务消息仅仅是控制事务内的消息是否发送提交事务就把事务内所有消息都发送…

echarts学习:基本使用和组件封装

前言 我在工作中使用echarts较少&#xff0c;这就导致每次使用时都要从头再来&#xff0c;这让我很头疼。因此我决心编写一系列文章将我参与工作后几次使用echarts所用到的知识记录下来&#xff0c;以便将来可以快速查阅。 一、基本使用 像我一样的新手&#xff0c;想要入门e…

【设计模式】JAVA Design Patterns——Iterator(迭代器模式)

&#x1f50d;目的 提供一种在不暴露其基础表示的情况下顺序访问聚合对象的元素的方法。 &#x1f50d;解释 真实世界例子 百宝箱包含一组魔法物品。有多种物品&#xff0c;例如戒指&#xff0c;药水和武器。可以使用藏宝箱提供的迭代器按类型浏览商品。 通俗描述 容器可以提供…