人脸识别之bbox【det_10g】-ncnn(c++)

模型描述

det_10g是insightface 人脸框图和人脸关键点的分类,最终能够得到人脸框图bbox,分值还有人脸五官(眼x2、鼻子x1、嘴巴x2)

由于我这里没有采用最终结果,通过onnx转换为ncnn,所以后面的步骤结果丢弃了,具体可以看另外一篇博文:模型onnx转ncnn小记-CSDN博客

输入处理

在python的时候输入和ncnn(c++)入参还是有些区别

由于模型的输入是我这边选择的是1x3x640x640,所以针对输入的图片需要进行处理,首先进行等比缩放和数据的差值和归一化处理

获取结果

把输入得到如下,9个结果

通过获取(441,443,444),(464,466,467),(487,489,490)

可以分别得到步长8, 16, 32 的三组数据,可以先了解下,目标候选框bbox的基础知识

计算坐标值和过滤

需要分别计算步长8、16和32的目标数据,下面是步骤

步骤一:结果变换维度

变换维度,方便处理和理解。

他的一组数据是(441,443,444),获取的大小是:scores=》1x2x80x80、bboxs=>1x8x80x80、kps=>1x20x80x80

通过insightface的源码可以看到,num_anchors = 2,每个位置的目标框是两组,正常来说是黑白图两种,既然是同一个位置,那么可以合并一起,所以。

1、scores:1x2x80x80  意思就是有2张图 ,每张图大小是80x80,有这么多分值,我们可以通过阈值把大多数的点过滤出去,默认的阈值是0.5.

2、bboxs: 1x8x80x80 每一个分数对应的四个点(x1,y1,x2,y2)*注意这个点是距离原点的相对值,还是需要计算的,这里1x8  前面1~4 是一个矩形框的点,后面的4~8是另一张图的矩形框坐标点,就是黑白图。

3、kps:1x20x80x80 每一个分数对应的五官坐标点(x,y)*注意这个点是距离原点的相对值,还是需要计算的,这里1~10 是一组坐标点,另外的10~20是另外一张图的一组坐标点,分开计算就行。

这里获取的分数scores 需要做一个sigmoid,让他映射到0~1,方便后面和阈值比较。

具体c++的sigmoid

inline float fast_exp(float x)
{
    union {
        uint32_t i;
        float f;
    } v{};
    v.i = (1 << 23) * (1.4426950409 * x + 126.93490512f);
    return v.f;
}

inline float sigmoid(float x)
{
    return 1.0f / (1.0f + fast_exp(-x));
}

步骤二:求出坐标值

1、坐标放大

这里的bbox和kps都需要乘以8 变换为原有的,之前处理特征值做了压缩处理,压缩了8倍

每个坐标值都x8 得到原有特征图的坐标点。

bbox= bbox *  8 

kps = kps * 8

2、求出真正的缩放值

bbox,这里的点都是一个便宜值,那么真正的坐标是怎么样的了,这里我们的这里返回特征图是80x80,由于这里的步长都是8,那么每个点就是这样排序下去,具体如下:

[0,0][8,0[16,0]...[632, 0]
[0,8][8,8][16,8]...[632, 8]
............
[0,632][8,632][16,632]...[632,632]

总共就是80x80的数据格式点

把每个点的坐标减去bbox[0]和bbox[1]得到左上角的(x1,y1) 

把每个点的坐标减去bbox[2]和bbox[3]得到右上角的(x2,y2) 

这样就得到了整个的bbox的坐标值

kps:其实也是一样,他是kps  5组x和y,分别添加上特征图的坐标点就行了,这里不需要减去

类似:bbox[0] + kps[n],bbox[1] + kps[n+1]

这样就求出kps的五个坐标点

其实应该先求出分数,然后再根据分数是否符合再求出坐标点,这样效率高点,这里为了理解过程就没有考虑效率问题了。

步骤三:分值过滤出

1、根据scores所有的分值进行过滤,过滤出大于等于0.5的阈值,得到一个分值列表

2、根据过滤的列表,把kps和bbox 也过滤下,去掉分值较低的

步骤四:重复上面的步骤

重复上面步骤,依次求出步长16和32的值,然后把结果放到一个列表,按得分份排序,方便后面的NMS计算,最终一个目标对应一个方框。

步骤五:NMS非极大值抑制

1、通过分值得到了不少的坐标点bbox,但是这些框很有可能是有重复的,这里需要用NMS进行过滤

  过滤的规则就是通过IOU进行合并,当计算出的IOU大于阈值这里的阈值是默认0.4,那么就合并候选框,当然是把分值低的合并给高的,所以为啥前面要进行排序了。

IOU其实就计算两个框相交的面积

看着复杂,其实计算还是挺简单的,比如

假设:A坐标(x1,y1)(x2,y2) B坐标(x3,y3)(x4,y4) 

上面的坐标都是左上角和右下角坐标,几个坐标可以合并成一个矩形框

A的面积:(x2-x1) *(y2-y1)

B的面积:(x4-x3)*(y4-y3)

根据上面可以求出C的宽和高:x4=(Min(x4,x2) - Max( x3,x1)) *( Min(y4,y2)-Max(y3,y1))

当然如果求出C的宽和高小于0,那么说明A和B没有相交不需要合并。

IOU=C面积/(A面积+B面积-C面积)

如果这个IOU大于我们设置的阈值这里是0.4,那么就进行合并选择得分高的

通过轮询把所有的候选框都过滤出来,就得到了最终的候选框。

具体可以查询文章 睿智的目标检测1——IOU的概念与python实例-CSDN博客

过滤坐标计算核心代码

核心部分代码:(这里没有进行转换了,直接采用mat计算,通过分值过滤,最后计算出人脸关键点和bbox边框)这样效率会稍微高点。

记得模型得出来的bbox和特征值,都是一个偏离值,最后需要乘以步长,然后如果需要再原图进行展示的话,还需要对应特征图640x640和原图的比例展示,后面才可以得出原图的坐标

下面是得出特征图的坐标值

//bbox 1x8x80x80  1x8x40x40 kps:1x20x80x80 1x20x40x40  scores:1x2x80x80  1x2x40x40 
int FaceDef::generate_proposals(ncnn::Mat& scores_blob, ncnn::Mat& bboxes_blob, ncnn::Mat& kps_blob,
    std::vector<ObjectDef>& objects,int stride, float threshold,int num_class) {
    const int dot_num = 4;//两组坐标
    int w = bboxes_blob.w;
    int h = bboxes_blob.h;
    int d = bboxes_blob.d;
    int channels = bboxes_blob.c;
    int dims = bboxes_blob.dims;

    if (channels * num_class % dot_num != 0)//通道数不正确,必须为4个坐标
        return -100;
    if (scores_blob.w != w || scores_blob.h != h)//如果形状不一致,必须形状一直
        return -101;
    if (kps_blob.w != w || kps_blob.h != h)//如果形状不一致,必须形状一直
        return -101;

    #pragma omp parallel for num_threads(net.opt.num_threads)
    for (int i = 0; i < w; i++)
    {
        for (int j = 0; j < h; j++)
        {
            for (int k = 0; k < num_class; k++) {//2组坐标
                float* scores = scores_blob.channel(k).row(i);
                scores[j] = sigmoid(scores[j]);
                if (threshold > 0 && threshold > scores[j]){
                    scores[j] = 0;//阈值判断
                    continue;//已经被剔除,此轮无需计算
                }
                //得分
                ObjectDef se_info;
                se_info.bbox.label = se_info.mat.c = k % dot_num; se_info.mat.w = i; se_info.mat.h = j;
                se_info.bbox.prob = scores[j];
                //由于坐标点是(0,0)(8,0),(16,0) ,对应我们for循环的坐标为坐标点为(j * stride,i *stride)
                //x
                float* arry = bboxes_blob.channel(k * dot_num).row(i);
                arry[j] = se_info.bbox.rect.x = (stride * j) - (arry[j] * stride);//得出边框左上角的x
                //y
                arry = bboxes_blob.channel(k* dot_num +1).row(i);
                arry[j] = se_info.bbox.rect.y = (stride * i) - (arry[j] * stride);//得出边框左上角的y
                //w
                arry = bboxes_blob.channel(k * dot_num +2).row(i);
                arry[j]  = ((stride * j) + (arry[j] * stride));//得出边框右下角的x
                se_info.bbox.rect.width = arry[j] - se_info.bbox.rect.x;
                //h
                arry = bboxes_blob.channel(k * dot_num + 3).row(i);
                arry[j] = ((stride * i) + (arry[j] * stride));//得出边框右下角的y
                se_info.bbox.rect.height = arry[j] - se_info.bbox.rect.y;
              

                for (int q = 0; q < 10; q+=2) {//5坐标 人脸关键点
                    //x1
                    float* kps_arry = kps_blob.channel(k * 10 + q).row(i);
                    kps_arry[j] = (stride * j) + (kps_arry[j] * stride);
                    se_info.kps.points[q / 2].x = kps_arry[j];
                    //y1
                    kps_arry = kps_blob.channel(k * 10 + q + 1).row(i);
                    kps_arry[j] = (stride * i) + (kps_arry[j] * stride);
                    se_info.kps.points[q / 2].y = kps_arry[j];
                    
                }

                objects.push_back(se_info);
                
            }
        }
    }

    return 0;
}

其他极大值可以采用其他的我这里是采用的yolo的,得到最终效果如下

运行效果

获取得到了人脸框图和人脸关键点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/613837.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

空间复杂度与链表刷题

"一切的一切都是你自己在感应." 本文索引 空间复杂度复杂度实例实例1实例2实例3 链表题目1. 返回倒数第K个节点2. 链表的回文结构3. 相交链表4. 随机链表的复制5. 环形链表 总结: 前言: 本文主要探究空间复杂度与链表题目讲解 更多文章点击主页: 酷酷学!!! 如果此文对…

Python自动化测试面试题 —— Selenium篇!

Selenium中有几种等待 隐形等待/智能等待 dr.implicitly_wait() 显性等待 WebDriverWait 强制等待 time.sleep() Selenium中有哪些定位方式 8种 tag 三大基本属性 id/name/class_name 链接 link text/partial link text 高级 css selector/xpath 弹框怎么处理 4种弹…

Mac电脑安装打开APP显示问题已损坏 问题解决

当MAC电脑安装完软件打开时&#xff0c;显示文件已损坏&#xff0c;无法打开。搜了很多教程终于找到解决方案&#xff0c;记录下方便以后再用。 我的mac电脑是intel芯片的&#xff0c;如果你遇到这个问题&#xff0c;可以参考我的这个方案。 1.首先当打开软件后出现 “xx软件已…

云效 Pipeline as Code 来了!这些场景,用好它效率翻倍!

从可视化编排到支持 YAML 编排 云效流水线 Flow 是开箱即用的企业级持续集成和持续交付工具&#xff0c;支持丰富的代码源、构建、自动化测试工具、多种部署类型和部署方式&#xff0c;与阿里云深度集成&#xff0c;还提供多种企业级特性&#xff0c;助力企业高效完成从开发到…

【Pip】pip 安装第三方包异常:[SSL:CERTIFICATE_VERIFY_FAILED]解决方案

pip 安装第三方包异常:[SSL:CERTIFICATE_VERIFY_FAILED] 大家好 我是寸铁&#x1f44a; 总结了一篇pip 安装第三方包异常:[SSL:CERTIFICATE_VERIFY_FAILED]✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 报错 今天在安装第三方包时报错如下: 解决方案 本质上是需要指定信任的镜像…

SpringBoot+Vue实现图片滑块和文字点击验证码

一、背景 1.1 概述 传统字符型验证码展示-填写字符-比对答案的流程&#xff0c;目前已可被机器暴力破解&#xff0c;应用程序容易被自动化脚本和机器人攻击。 摒弃传统字符型验证码&#xff0c;采用行为验证码采用嵌入式集成方式&#xff0c;接入方便&#xff0c;安全&#…

train_gpt2_fp32.cu

源程序 llm.c/test_gpt2_fp32.cu at master karpathy/llm.c (github.com) #include <stdio.h> #include <stdlib.h> #include <math.h> #include <time.h> #include <assert.h> #include <float.h> #include <string.h> #include…

国内十大免费图床推荐

国内十大免费图床推荐 近期&#xff0c;莫卡乐AI导航站汇总了国内一些出色的图床网站&#xff0c;既有知名大站&#xff0c;也有小众网站&#xff0c;用户的使用体验都非常好&#xff01; 1.路过图床 地址&#xff1a;https://imgse.com/ 我们是国内知名的图床之一&#xf…

Windows只能安装在GPT磁盘上

转换磁盘分区形式 步骤1. 先按照正常流程使用Windows系统安装光盘或系统U盘引导计算机。 步骤2. 在Windows安装程序中点击“开始安装”&#xff0c;然后按ShiftF10打开命令提示符。 步骤3. 依次输入以下命令&#xff0c;并在每一行命令后按一次Enter键执行。 步骤4. 等待转换…

条件平差——以水准网平差为例 (python详细过程版)

目录 一、原理概述二、案例分析三、代码实现四、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、原理概述 条件平差的函数模型和随机模型为: A V + W = 0

Dbeaver network unavailable due to certificate issue

场景&#xff1a;出现在DBeaver连接数据库下载驱动的时候 解决&#xff1a; 别勾选就可以了

制冰机的分类介绍

制冰机分别有哪些类型&#xff1f;制冰机顾思义就是制作冰块的机器&#xff0c;但是冰块分片冰、块冰、管冰、颗粒冰等。根据制冰机制出冰块的形状&#xff0c;可以分为&#xff1a;片冰机、块冰机、管冰机、颗粒冰机、雪花机、板冰机、以及最新研制的球冰机等。 制冰机是采用制…

linux 安装 mangodb 并设置服务开机自启

1、下载 wget http://mosquitto.org/files/source/mosquitto-1.6.8.tar.gz 2、解压 tar -zxvf mosquitto-1.6.8.tar.gz 3、编译安装cd mosquitto-1.6.8 make sudo make install4、在当前目录。进入mosquitto服务文件存放的文件夹 cd service/systemd可以看到3个文件 点击read…

2024年旅游行业薪酬报告

来源&#xff1a;薪智 近期历史回顾&#xff1a; 2024年中国健康家电消费洞察及趋势研究报告.pdf 2024巴菲特股东大会5万字完整版.pdf 2024年全国大学生新媒体直播大赛.pdf 2024北京市高级别自动驾驶示范区数据安全治理白皮书.pdf 2024年第一季度开发者健康调查报告.pdf 2024年…

商务分析方法与工具(八):Python的趣味快捷-年少不知numpy好,再见才觉很简单

Tips&#xff1a;"分享是快乐的源泉&#x1f4a7;&#xff0c;在我的博客里&#xff0c;不仅有知识的海洋&#x1f30a;&#xff0c;还有满满的正能量加持&#x1f4aa;&#xff0c;快来和我一起分享这份快乐吧&#x1f60a;&#xff01; 喜欢我的博客的话&#xff0c;记得…

CentOS 磁盘扩容与创建分区

文章目录 未分配空间创建新分区重启服务器添加物理卷扩展逻辑卷 操作前确认已给服务器增加硬盘或虚拟机已修改硬盘大小&#xff08;必须重启服务才会生效&#xff09;。 未分配空间 示例说明&#xff1a;原服务器只有40G&#xff0c;修改虚拟机硬盘大小再增加20G后硬盘变为60G。…

OpenID Connect 是什么?和 OAuth 有哪些异同?

因为工作关系&#xff0c;我需要给一个业务网站配置一个 SSO&#xff0c;我一看&#xff0c;这个业务网站只支持 SAML 和 OpenID Connect&#xff0c;也即 OIDC。其实早就听说过这个词&#xff0c;但是没有仔细了解过。所以&#xff0c;特来学习一下到底什么是 OIDC。 一、 什…

【计算机网络】计算机网络的性能指标

&#x1f6a9;本文已收录至专栏&#xff1a;计算机网络学习之旅 计算机网络的性能指标被用来从不同方面度量计算机网络的性能。常用的八个计算机网络性能指标&#xff1a;速率、带宽、吞吐量、时延、时延带宽积、往返时间、利用率、丢包率。 一.速率 (1) 数据量 比特&#…

【论文笔记】DualBEV: CNN is All You Need in View Transformation

原文链接&#xff1a;https://arxiv.org/abs/2403.05402 1. 引言 有效的BEV目标检测需要PV到BEV的视图变换&#xff08;VT&#xff09;。目前的VT分为2D到3D和3D到2D两类&#xff0c;前者通过预测深度概率提升2D特征&#xff0c;但存在深度不确定性&#xff1b;后者则使用3D查…

动态规划解决回文子串问题

前言&#xff1a; 回文串相关问题在我们的算法题中算是老生常谈&#xff0c;本文主要介绍如何使用动态规划的思路去解决回文串系列问题。 总体思路&#xff1a; 能够将所有的子串是否是回文的信息&#xff0c;存储在二维dp表中。有了这个dp表&#xff0c;就可以将hard难度转…