机器学习笔记 - 基于OpenCV+稀疏光流的无监督运动检测

一、简述

        在各种高级开源库的帮助下,检测固定摄像机拍摄的运动行为是轻而易举可以实现的,但检测移动的摄像机拍摄的移动物体的运动检测依然是一个复杂的问题。在这里,我们将继续基于稀疏光流,并检测移动的无人机相机的运动。

        这里使用的数据集来自VisDrone数据集,见下面github的链接。这个数据集其中包含各种环境下的无人机视频剪辑。运动检测在该领域的应用包括:监视、自主、搜索和救援,甚至环境应用。该检测方法旨在将稀疏光流向量中的真实移动物体与背景区分开来,因为我们不依赖于任何前置条件,所以这是一种无监督方法。

https://github.com/VisDrone/VisDrone-Dataseticon-default.png?t=N7T8https://github.com/VisDrone/VisDrone-Dataset        本文介绍的检测方法流程概述如下:

        对于一对连续帧,帧 1 和帧 2

        1、计算第 1 帧上的关键点

        2、计算从帧 1 到帧 2 的稀疏光流

        3、进行运动补偿以获得补偿后的关键点

        4、补偿流矢量的计算范数

        5、对 Norm 进行异常值检测以获得运动点

        6、聚类运动点以获得检测

        7、过滤检测到的簇

        示例图像如下

二、光流和运动补偿

        光流描述了图像序列中像素从一帧到下一帧的运动。稀疏光流计算角点等显着特征的运动,而密集光流计算所有像素的运动。

        相机运动补偿允许在检测移动物体时考虑相机运动,它是从前一帧到当前帧的变换。稀疏光流将帮助我们找到这种转变。

        下面更详细地概述了前三个步骤:

        1、通过检测强特征来计算第 1 帧上的关键点

        2、使用稀疏光流将关键点与第 2 帧匹配

        3、对第 1 帧的关键点进行运动补偿

        4、使用先前和当前关键点的数组来计算从帧 1 到帧 2 的变换

        4、对第 1 帧的关键点进行变换

        我们可以使用角点检测或任何特征检测算法完成步骤 1,并使用稀疏光流执行步骤 2 。步骤2的匹配结果提供了由于相机运动而导致的关键点的新位置。(即新图像坐标处的相同像素)。第 1 帧和第 2 帧关键点之间的增量构成了流向量。

        实际上,流矢量是由相机和物体在任何 3D 方向上的运动产生的,但它们只捕获 2D 图像空间中的运动。这就是第 3 步的用武之地,我们估计一个变换矩阵来将帧 1 与帧 2 对齐。 2D仿射变换效果很好,但我们也可以估计单应性矩阵,主要区别在于 2D 仿射变换(2x3 矩阵)仅考虑 2D 空间,而 Homography(3x3 矩阵)考虑 3D 空间。我们在所有这些步骤中大量利用 OpenCV,估计变换矩阵的代码如下所示:

def motion_comp(prev_frame, curr_frame, num_points=500, points_to_use=500, transform_type='affine'):
    """ Obtains new warped frame1 to account for camera (ego) motion
        Inputs:
            prev_frame - first image frame
            curr_frame - second sequential image frame
            num_points - number of feature points to obtain from the images
            points_to_use - number of point to use for motion translation estimation 
            transform_type - type of transform to use: either 'affine' or 'homography'
        Outputs:
            A - estimated motion translation matrix or homography matrix
            prev_points - feature points obtained on previous image
            curr_points - feature points obtaine on current image
        """
    transform_type = transform_type.lower()
    assert(transform_type in ['affine', 'homography'])

    prev_gray = cv2.cvtColor(prev_frame, cv2.COLOR_RGB2GRAY)
    curr_gray = cv2.cvtColor(curr_frame, cv2.COLOR_RGB2GRAY)

    # get features for first frame
    corners = cv2.goodFeaturesToTrack(prev_gray, num_points, qualityLevel=0.01, minDistance=10)

    # get matching features in next frame with Sparse Optical Flow Estimation
    matched_corners, status, _ = cv2.calcOpticalFlowPyrLK(prev_gray, curr_gray, corners, None)

    # reformat previous and current corner points
    prev_points = corners[status==1]
    curr_points = matched_corners[status==1]

    # sub sample number of points so we don't overfit
    if points_to_use > prev_points.shape[0]:
        points_to_use = prev_points.shape[0]

    index = np.random.choice(prev_points.shape[0], size=points_to_use, replace=False)
    prev_points_used = prev_points[index]
    curr_points_used = curr_points[index]

    # find transformation matrix from frame 1 to frame 2
    if transform_type == 'affine':
        A, _ = cv2.estimateAffine2D(prev_points_used, curr_points_used, method=cv2.RANSAC)
    elif transform_type == 'homography':
        A, _ = cv2.findHomography(prev_points_used, curr_points_used)

    return A, prev_points, curr_points

        我们提供了一个选项,可以使用较少数量的点来估计变换矩阵,以避免过度拟合。我们还返回帧 1 和 2 中的关键点,因为它们包含估计的流向量。现在我们可以完成步骤 3 并转换第 1 帧中的关键点以考虑相机运动。

A, prev_points, curr_points = motion_comp(frame1, frame2, num_points=10000, points_to_use=10000, transform_type='affine')

# Camera Motion Compensation on frame 1 (for reference)
# transformed1 = cv2.warpAffine(frame1, A, dsize=(frame1.shape[:2][::-1])) # affine transform

# Camera Motion Compensation on Key Points
A = np.vstack((A, np.zeros((3,)))) # convert 2x3 affine to 3x3 matrix 
compensated_points = np.hstack((prev_points, np.ones((len(prev_points), 1)))) @ A.T 

compensated_points = compensated_points[:, :2]

        由于变换矩阵将第 1 帧与第 2 帧对齐,因此第 1 帧的关键点应与第 2 帧的关键点对齐,让我们检查一个随机点:

print(f" Prev Key Points: {np.round(prev_points[100], 2)} \n",
      f"Compensated Key Points: {np.round(compensated_points[100], 2)} \n",
      f"Current Key Points: {np.round(curr_points[100], 2)}")

Prev Key Points: [528. 837.]
Compensated Key Points: [524.61 845.22]
Current Key Points: [524.33 845.14]

        我们可以看到运动补偿对于大多数背景点都做得很好。

三、 获取流向量的范数

        现在我们已经补偿了相机运动,我们可以通过从帧 2 关键点中减去变换后的帧 1 关键点来获得补偿后的流向量矩阵。

compensated_flow = curr_points - compensated_points

        现在我们可以比较原始的 VS 补偿流向量:

水平和垂直流向量的直方图。左:原始流向量直方图

        请注意左侧的直方图具有多种模式。对于较小的相机运动,我们期望背景几乎保持不变,因此我们应该期望补偿后的流向量以零为中心。它们不全为零的原因是帧与帧之间的图像噪声以及运动补偿的缺陷。在右侧,我们看到实际情况就是如此,除了异常值之外,水平和垂直方向的补偿流量直方图非常接近于零。

        选择距离度量(标准)

        在我们开始异常值检测之前,我们找到一种方法将数据组合成单个指标,然后对该指标执行异常值检测。我们可以使用许多指标,但我们会考虑一个能够放大异常值的指标,使它们更容易检测。这是L2范数(距离)的一个很好的方式,其中平方距离确实放大了大于我们正在寻找的距离(流量)。此外,平方会减少小于一的值。

        在Python中,我们可以使用numpy获得l2范数。

x = np.linalg.norm(compensated_flow, ord=2, axis=1) 

四、通过异常值检测运动

        对于异常值检测,我们使用一种简单的方法,通过取平均值加上缩放标准差来创建单侧异常值边界,其中缩放因子是超参数。事实证明,这比IQR和MAD等其他方法更有效,我们还应该注意,这种分布不是正态分布,它更接近拉普拉斯分布。

        在上图中,对数据拟合了拉普拉斯分布,这应该会产生稳健的异常值检测方法。我们可以看到它的右侧有一条长的尾巴。计算异常值的代码如下所示。

from scipy.stats import kurtosis


c = 2 # tunable scale factor

# We expect a Leptokurtic distribution with extrememly long tails
if kurtosis(x, bias=False) < 1:
        c /= 2 # reduce outlier hyparameter

# get outlier bound (only care about upper bound since lower values are not likely movers)
upper_bound = np.mean(x) + c*np.std(x, ddof=1)

        我们还需要检查分布的峰度,以衡量其尾部。峰度越大,分布越拖尾;请记住,大的拖尾意味着移动的物体。从技术上讲,高峰度值表示 Leptokutic 分布,基本上是长尾的高峰分布,示例如下所示。

        如果分布没有峰度所示的大尾部,则我们要么没有物体,要么没有物体移动缓慢。我们凭经验观察到,将阈值降低 2 倍可以获得更好的结果。下面的代码片段展示了我们如何过滤异常值并获取与运动相对应的关键点。

motion_idx = (x >= upper_bound)
motion_points = curr_points[motion_idx]

        目前已经检测到运动点,但仍然有许多误检。在接下来需要删除不正确的点并保留真实的运动点。

五、集群运动点

        下一组是对检测到的运动点进行聚类,但首先我们将向数据添加更多信息。运动点包含图像上的水平和垂直位置,但我们还添加运动的幅度和角度。移动物体通常具有相似大小和角度的流向量。

# add additional motion data for clustering
motion = compensated_points[motion_idx] - curr_points[motion_idx] 
magnitude = np.linalg.norm(motion, ord=2, axis=1)
angle = np.arctan2(motion[:, 0], motion[:, 1]) # horizontal/vertial

motion_data = np.hstack((motion_points, np.c_[magnitude], np.c_[angle]))

        我们将使用DBSCAN或基于噪声的应用程序的密度空间聚类对点进行聚类。DBSCAN 允许我们找到点的簇,而无需预先定义簇的数量。我们需要设置要考虑在同一簇中的两个样本的最小半径(以像素为单位)以及每个簇的最小样本数;不满足这些标准的点被视为背景噪声并从结果中删除。

        最小半径(eps)非常重要,如果我们将其设置得太大,那么我们将错过较小的移动物体,太小,我们将得到错误的检测。在这种情况下,我们采取中间立场,并注意到单个移动对象可能有多个集群。最小样本数取决于异常值界限的严格性(即,如果我们有更高的界限(较少数量的异常值),那么我们应该使用较小的 min_samples)。

from sklearn.cluster import DBSCAN

cluster_model = DBSCAN(eps=50.0, min_samples=3)
cluster_model.fit(motion_data)

        结果如下 

六、过滤簇

        我们将根据三个标准过滤集群:

        运动角度 → 运动角度方差要小

        边缘位置→边缘簇往往是错误检测

        最大簇大小 → 有时背景噪声会产生大量错误检测

        我们首先设置一些以弧度为单位的角度阈值,这可能是主观的,但 0.1 左右的值往往效果很好。我们还设置了一个边缘阈值,这是从簇质心(平均值)到要删除的边缘的阈值像素距离,值 50 效果很好。最大簇大小是单个簇的最大点数,这是为了消除主要由未根据边缘标准过滤的边缘点组成的大型错误检测。

angle_thresh = 0.1 #  radians
edge_thresh = 50   # pixels
max_cluster_size = 80 # number of cluster points

clusters = []
far_edge_array = np.array([w - edge_thresh, h - edge_thresh])
for lbl in np.unique(cluster_model.labels_):
    cluster_idx = cluster_model.labels_ == lbl

    # get standard deviation of the angle of apparent motion 
    angle_std = angle[cluster_idx].std(ddof=1)
    if angle_std <= angle_thresh:
        cluster = motion_points[cluster_idx]

        # remove clusters that are too close to the edges and ones that are too large
        centroid = cluster.mean(axis=0)
        if (len(cluster) < max_cluster_size) \
            and not (np.any(centroid < edge_thresh) or np.any(centroid > far_edge_array)):
            clusters.append(cluster)

        下面代码把上面检测过程整合到一起,

cluster_model = DBSCAN(eps=30.0, min_samples=3) # DBSCAN is seems to work the best

frames = []
for i in range(len(image_paths) - 1):
    frame1 = cv2.imread(image_paths[i])
    frame2 = cv2.imread(image_paths[i + 1])

    # get detected cluster
    clusters = get_motion_detections(frame1, 
                                     frame2, 
                                     cluster_model, 
                                     c=1.0,
                                     angle_thresh=0.1, 
                                     max_cluster_size=50,
                                     distance_metric='l2', 
                                     transform_type='affine')

    # draw detected clusters
    for j, cluster in enumerate(clusters):
        color = get_color((j+1)*5)
        frame2 = plot_points(frame2, cluster, radius=10, color=color)

    # save image for GIF
    fig = plt.figure(figsize=(15, 7))
    plt.imshow(frame2)
    plt.axis('off')
    fig.savefig(f"temp/frame_{i}.png")
    plt.close();
    
    frames.append(frame2)

        完整代码,见链接内unsupervised_motion_detection.py

https://github.com/bashendixie/ml_toolset/tree/main/%E6%A1%88%E4%BE%8B121%20%E8%BF%90%E5%8A%A8%E6%A3%80%E6%B5%8B%20%E5%B8%A7%E9%97%B4%E5%B7%AE%E5%88%86%20%E5%85%89%E6%B5%81%20%E8%83%8C%E6%99%AF%E5%8E%BB%E9%99%A4icon-default.png?t=N7T8https://github.com/bashendixie/ml_toolset/tree/main/%E6%A1%88%E4%BE%8B121%20%E8%BF%90%E5%8A%A8%E6%A3%80%E6%B5%8B%20%E5%B8%A7%E9%97%B4%E5%B7%AE%E5%88%86%20%E5%85%89%E6%B5%81%20%E8%83%8C%E6%99%AF%E5%8E%BB%E9%99%A4

 七、小结

        该方法能够检测来自移动平台(即无人机)的运动,但严重依赖于超参数,并且单个分布上的异常值检测意味着可能无法检测到缓慢移动的物体。该方法的主要限制是物体必须移动得足够快才能被检测到。

        此外,以像素为单位的对象运动与对象大小相关,这是该算法未解决的问题。尽管有这些限制,我们仍然能够检测大多数移动物体的运动。

        该方法必然不是运动检测最好的方法(甚至称不上好方法),重要的是,我们了解到了一种方法,获得了一些经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/299536.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年道路运输企业主要负责人证考试题库及道路运输企业主要负责人试题解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年道路运输企业主要负责人证考试题库及道路运输企业主要负责人试题解析是安全生产模拟考试一点通结合&#xff08;安监局&#xff09;特种作业人员操作证考试大纲和&#xff08;质检局&#xff09;特种设备作业人…

STL标准库与泛型编程(侯捷)笔记2

STL标准库与泛型编程&#xff08;侯捷&#xff09; 本文是学习笔记&#xff0c;仅供个人学习使用。如有侵权&#xff0c;请联系删除。 参考链接 Youbute: 侯捷-STL标准库与泛型编程 B站: 侯捷 - STL Github:STL源码剖析中源码 https://github.com/SilverMaple/STLSourceCo…

企业网盘全方位解读:热门云存储工具的优势与适用场景

企业网盘无疑是当下最热门的企业协同工具。什么是企业网盘&#xff1f;企业网盘与个人网盘又有什么不同呢&#xff1f;一文全方位解读企业网盘这一热门云存储工具。 什么是企业网盘 企业网盘为企业级文件存储、管理与共享平台&#xff0c;企业团队可以在企业网盘中存储企业文…

2024.1.6 关于 Redis 数据类型 Zset 常用命令

目录 Zset 基本概念 Zset 命令操作 ZADD ZRANGE ZREVRANGE ZCARD ZCOUNT ZRANGEBYSCORE ZPOPMAX BZPOPMAX ZPOPMIN BZPOPMIN ZRANK ZREVRANK ZSCORE ZREM ZREMRANGEBYRANK ZREMRANGEBYSCORE ZINCRBY Zset 基本概念 Set&#xff08;集合&#xff09; 元素具…

ARM笔记-----输入捕获

输入捕获可以对输入的信号的上升沿、下降沿或者双边沿进行捕获&#xff0c;常用的有测量输入信号的脉 宽&#xff0c;和测量 PWM 输入信号的频率和占空比这两种。 输入捕获的大概的原理 当捕获到信号的跳变沿的时候&#xff0c;把计数器 CNT 的值锁存到捕获寄 存器 CCR 中…

各种基础环境搭建

1、Python解释器安装 验证环境变量是否添加成功 winr --> cmd 输入python 会出现的问题 在命令行输入python弹出应用商城 是由于商城的环境变量在python的环境变量前面,移动到最下面就好 C:\Users…\AppData\Local\Microsoft*WindowsApps*

3d全景怎么拍摄?应用领域有哪些?

3d全景技术是综合了VR技术和全景拍摄的一种新型应用技术&#xff0c;通过3D全景技术可以为用户带来720度无死角的观看方式和真实的观看体验&#xff0c;那么3d全景是怎么拍摄制作的呢&#xff1f;应用领域又有哪些呢&#xff1f; 3d全景拍摄制作流程其实不难&#xff0c;常见的…

Linux-文件系统管理实验2

1、将bin目录下的所有文件列表放到bin.txt文档中&#xff0c;并将一共有多少个命令的结果信息保存到该文件的最后一行。统计出文件中以b开头的所有命令有多少个&#xff0c;并将这些命令保存到b.txt文档中。将文档中以p结尾的所有命令保存到p.txt文件中&#xff0c;并统计有多少…

多租户看这一篇就够了

什么是多租户&#xff1f;举个例子&#xff1a;马云、马化腾和刘强东三个人去租房子&#xff0c;他们因为家里经济困难所以勤工俭学&#xff0c;三个人决定合租一套三室一厅的房子&#xff0c;虽然每个人有自己的房间&#xff0c;但是家里的水电、厨房、卫生间和热水器都是大家…

攀登者1 - 华为OD统一考试

OD统一考试 分值: 100分 题解: Java / Python / C++ 题目描述 攀登者喜欢寻找各种地图,并且尝试攀登到最高的山峰。 地图表示为一维数组,数组的索引代表水平位置,数组的元素代表相对海拔高度。其中数组元素0代表地面。 例如:[0,1,2,4,3,1,0,0,1,2,3,1,2,1,0],代表如下…

2、Excel:基础概念、表格结构与常见函数

数据来源&#xff1a;八月成交数据 数据初探 业务背景 数据来源行业&#xff1a;金融行业&#xff08;根据应收利息和逾期金额字段来判断&#xff09; 可以猜测&#xff1a; 业务主体&#xff1a;某互联网金融公司&#xff08;类似支付宝&#xff09;也业务模式&#xff1a;给…

汽车电子行业的 C 语言编程标准

前言 之前分享了一些编程规范相关的文章&#xff0c;有位读者提到了汽车电子行业的MISRA C标准&#xff0c;说这个很不错。 本次给大家找来了一篇汽车电子行业的MISRA C标准的文章一同学习下。 什么是MISRA&#xff1f; MISRA (The Motor Industry Software Reliability Ass…

K8S-应用部署

1 应用管理解读 2 应用部署实践 资源对象管理关系 资源对象管理实践 手工方式&#xff1a; kubectl run pod名称 --imageimage地址资源清单方式: apiVersion: v1 kind: Pod metadata:labels:run: my-podname: my-pod spec:containers:- image: kubernetes-register.sswang.co…

报错curl: (6) Could not resolve host: raw.githubusercontent...的解决办法

我起初想要在macOS系统安装pip包&#xff0c;首先在终端安装homebrew&#xff0c;敲了命令&#xff1a;/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent...)" 之后触发的报错&#xff0c;报错内容&#xff1a;curl: (6) Could not resolve host: raw.…

1870_使用flx来增强counsel-M-x的模糊匹配功能

Grey 全部学习内容汇总&#xff1a; https://github.com/GreyZhang/editors_skills 1870_使用flx来增强counsel-M-x的模糊匹配功能 这一次算是趁热打铁&#xff0c;把之前优化掉了的counsel-M-x的匹配功能再推进一步。虽然还是没有达到spacemacs中的乱序匹配效果&#xff0c…

性能分析与调优: Linux 监测工具的数据来源

目录 一、实验 1.环境 2. proc目录 3. sys目录 4.netlink 5.tracepoint 6.kprobes 7. uprobes 二、问题 1.systemd如何查看启动时间 2.CentOS与Ubuntu如何安装bpftrace 3.snap有哪些常用的命令 4.snap如何安装store 5.如何列出使用bpftracede的OpenJDK USDT探针 …

私有仓库Gogs搭建(docker环境)

文章目录 环境准备Gogs简介MYSQL(docker) 搭建gogs(docker) 部署gogs初始化配置配置管理员信息仓库创建项目代码上传仓库 环境准备 本地环境安装git,参考Git分布式版本控制工具学习管理面板1panel&#xff0c;安装参考Armbian安装1panel教程服务器docker环境&#xff08;如果使…

信号与槽机制

1. 信号与槽机制&#xff08;重点&#xff0c;但不是难点&#xff09; 1.1 机制&#xff1a; 是一种两个对象之间的通信的机制 例如&#xff1a; 鼠标双击-------文件夹图标---------打开文件夹功能 通信的过程&#xff1a; 用户对象 文件夹图标对象 鼠标双击&#xff0c;相当于…

OpenVINS学习6——VioManagerHelper.cpp,VioManagerOptions.h学习与注释

前言 VioManager类里还有VioManagerHelper.cpp,VioManagerOptions.h这两个文件&#xff0c;也包含了一些函数&#xff0c;这次接着看这个 。 整体分析 void VioManager::initialize_with_gt(Eigen::Matrix<double, 17, 1> imustate) 给一个状态&#xff0c;然后初始化…

基于YOLOv3开发构建道路交通场景下CCTSDB2021交通标识检测识别系统

交通标志检测是交通标志识别系统中的一项重要任务。与其他国家的交通标志相比&#xff0c;中国的交通标志有其独特的特点。卷积神经网络&#xff08;CNN&#xff09;在计算机视觉任务中取得了突破性进展&#xff0c;在交通标志分类方面取得了巨大的成功。CCTSDB 数据集是由长沙…