AV1技术学习:Affine Motion Compensation

一、Affine Model Parameter

除了传统的平移运动补偿,AV1 还支持仿射变换模型,将当前像素点 (x, y) 通过以下方式投影到参考帧中的预测像素点 (x', y').

参数 (h13, h23) 对应于平移模型中使用的常规运动向量。 参数 h11 和 h22 控制垂直和水平轴上的比例因子,并与 h12 和 h21 一起决定旋转角度。

每个参考帧关联一个全局仿射模型,其中四个非平移参数的精度均为12位,平移运动矢量的编码精度为15位。一个编码块可以直接根据参考帧索引使用其仿射模型。

全局仿射模型捕获帧级缩放和旋转,主要关注整个帧的刚性运动设置。此外,编码块级别的仿射模型可以自适应地跟踪跨帧变化的非平移运动。然而,每个编码块发送仿射模型参数的开销成本也引入了额外的信息。因此,各种研究工作都集中在不增加额外开销的仿射模型参数估计上,AV1 采用一种基于空间相邻块的规则平移运动矢量的局部仿射参数估计方案。

编码块的局部仿射模型中的平移运动矢量 (h13, h23) 在比特流中显式传输。为了估计其他四个参数,假设局部尺度和旋转因子可以通过空间邻居的运动活动信息来反映。编解码器扫描编码块最近的相邻块,并根据运动信息使用和当前块相同参考帧的相邻块。最多允许八个相邻候选块。对于每个后选择的候选块,首先计算其中心位置和当前块中心位置的偏移,将该位置作为原始样本的位置,然后在该偏移的基础上,添加候选块和当前块间的运动矢量差,形成仿射变换后的目标样本的位置,对可用的原始和目标样本位置对进行最小二乘回归,计算仿射模型参数。

我们以上图为例来演示仿射参数估计过程。最近的相邻块由扫描顺序标记。对于Block k,其中心位置记为(xk, yk),运动矢量记为 mvk,其中当前编码块用 k = 0 表示。

假设,在这种情况下,相邻块 1、2、5和 7 与当前块使用相同的参考帧,选它们为参考块。原始样本位置形成为

式中k∈{1,2,5,7}。将运动矢量差进一步相加,得到相应的目标样本位置

为了构造最小二乘回归,我们将样本数据表示为

最小二乘回归计算出的 Affine 的参数为:

在实际中需要确保空间相邻块与当前块相关。因此,如果运动矢量差的任何分量的绝对值超过8个像素,我们就丢弃该参考块。此外,如果可用参考块的数量小于2,则最小二乘回归问题是病态的;因此,局部仿射模型被禁用。

二、Affine Motion Compensation

构建出 Affine 模型之后,进行Affine 模式的运动补偿。Affine 模型应用于 8x8 及以上的块大小。

一个预测块被分解成8 × 8个单元。首先由平移运动向量(h13, h23)确定每个 8×8 预测单元的中心像素,下图所示。下图中的绿色方格中位置(x, y)的其余像素,围绕中心像素(x1, y1)进行缩放和旋转,形成如下虚线中的仿射投影(x', y')

仿射投影允许 1/64 像素精度。设计了一组八抽头FIR滤波器(在某些情况下为六抽头)来进行亚像素插值。传统的平移模型在整个块上具有均匀的亚像素偏移量,这允许人们有效地“重用”大多数中间结果以减少总体计算。比如,要插值8 × 8块,首先应用水平滤波器从15 × 15 参考区域生成中间15 × 8数组。然后将垂直滤波器应用于中间的 15 × 8 数组,以产生最终的8 × 8预测块。因此,平移模型需要水平滤波进行(15×8)×8乘法运算,垂直滤波进行(8 × 8) × 8次乘法,共1472次乘法。

与平移模型不同,假设仿射模型中的每个像素由于旋转和缩放效应而具有不同的亚像素偏移是合理的。直接计算每个像素需要64 × 8 × 8 = 4096次乘法。然而,可以看到(7)中的旋转和缩放矩阵可以分解为两个剪切矩阵

其中右边的第一项对应于垂直插值,第二项对应于水平插值。这将构建仿射参考块转换为两个阶段的插值操作。
首先通过在15 × 15参考区域上的水平滤波得到一个15 × 8 的中间数组,其中水平偏移量计算为

然后中间数组进行垂直滤波以插值垂直偏移量

并生成8×8预测块。因此,它总共需要1472次乘法,与平移情况相同。然而,值得注意的是,仿射模型的实际计算成本仍然较高,因为每个像素的滤波系数都是变化的,而平移模型在水平和垂直方向分别使用固定的滤波器。

为了提高缓存性能,AV1要求 (9) 中的水平偏移量与 (x−x1) 的距离在1个像素以内,(10) 中的垂直偏移量与 (y−y1) 的距离在1个像素以内,这就限制了参考区域的距离在一个15×15像素数组内。考虑生成15 × 8中间像素数组的第一阶段。离其中心的位移为(x−x1)∈[−4,4],(y−y1)∈[−7,8]。

因此,我们对最大水平偏移量的约束为

同样,在第二阶段(x−x1)∈[−4,4]和(y−y1)∈[−4,4],从而导致

AV1中的有效仿射模型需要同时满足式(11)和式(12)中的条件。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/803422.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【React笔记初学总结一】React新手的学习流程笔记总结,掰开了揉碎了,下载安装基础结构学习

REACT学习记录 一、React是什么:二、尝试安装下载:三、理解都有什么四、基础网页学习:1.几个比较重要的资源包例子2.第一个react示例:(掰开了揉碎了,咱们先看懂它最简单的结构)3.第二个react示例…

【数学建模】高温作业专用服装设计(2018A)隐式差分推导

为方便计算,对区域进行离散化处理,采用隐式差分格式进行离散计算。隐式差分格式如图: 每层材料内部 对第 j j j层材料: 其中, λ j \lambda_j λj​表示第 j j j层的热扩散率, c j c_j cj​表示第 j j j层的比热容…

每日练习,不要放弃

目录 题目1.下面叙述错误的是 ( )2.java如何返回request范围内存在的对象?3.以下代码将打印出4.下列类定义中哪些是合法的抽象类的定义?()5.以下代码段执行后的输出结果为6.以下代码运行输出的是总结 题目 选自牛客网 1.下面叙述…

Java 快速入门学习 -- Day 2

Java 快速入门 Ⅱ maven(图书管理员)IDEA使用 maven框架 maven(图书管理员) maven 仓库,图书馆。要看书的化先从家里找(本地仓库),本地找不到就去中央仓库或者镜像仓库找&#xff0c…

用Python实现学生信息管理系统

用Python来实现学生信息管理系统 学生信息管理系统(Python) 简介:基本信息管理和学生成绩管理。基本信息管理模块的主要功能有学生信息的添加、删除、修改、显示和学生数据的导入导出,学生成绩管理模块的主要功能有统计课程最高分…

推荐 3个小众精品软件,个个能打实力强,快来看看

X-plore X-plore是一个多功能的文件管理工具,广泛应用于Android设备上。它不仅支持多种文件格式和操作,还提供了丰富的功能以满足用户的需求。 X-plore具有强大的文件管理功能,包括查看、复制、移动、删除、压缩到Zip、提取、重命名、共享等…

C++--lambda表达式

介绍 一个lambda表达式表示一个可调用的代码单元。我们可以将其理解为一个未命名的内联函数。和函数类型,lambda有一个返回值,一个参数列表和一个函数体,但比函数多一个捕获列表。具体形式如下: [捕获列表](参数列表) ->返回值类型 {函数体}其中:捕获列表:可以捕获定义lam…

Tita的OKR:高端制造行业的OKR案例

高端设备制造行业的发展趋势: 产业规模持续扩大:在高技术制造业方面,航空、航天器及设备制造业、电子工业专用设备制造等保持较快增长。新能源汽车保持产销双增,新材料新产品生产也高速增长。 标志性装备不断突破:例如…

美式键盘 QWERTY 布局的来历

注:机翻,未校对。 The QWERTY Keyboard Is Tech’s Biggest Unsolved Mystery QWERTY 键盘是科技界最大的未解之谜 It’s on your computer keyboard and your smartphone screen: QWERTY, the first six letters of the top row of the standard keybo…

亲测--linux下安装ffmpeg最新版本---详细教程

下载地址 Download FFmpeg 下载最新的https://ffmpeg.org/releases/ffmpeg-7.0.1.tar.xz 上传到服务器 解压 tar xvf ffmpeg-7.0.1.tar.xz 编译 cd ffmpeg-7.0.1 ./configure --prefix=/usr/local/ffmpeg make && make install 报错: 解决:在后面加 跳过检测…

【node-RED 4.0.2】连接操作 Oracle 数据库实现 增 删 改 查【新版,使用新插件:@hylink/node-red-oracle】

总览 上节课,我们说到,在 node-red 上链接 oracle 数据库 我们使用的插件是 node-red-contrib-agur-connector。 其实后来我发现,有一个插件更简便,并且也更好用:hylink/node-red-oracle !!&am…

LinuxShell编程1———shell基础命令

文章目录 前言 一、shell基础知识 1、shell概念 2、Shell的功能 接收:用户命令 调用:相应的应用程序 解释并交给:内核去处理 返还:内核处理结果 3、Shell种类(了解) 3.1、MS-DOS 3.2、Windows的…

C# 中IEnumerable与IQuerable的区别

目的 详细理清IEnumerator、IEnumerable、IQuerable三个接口之间的联系与区别 继承关系:IEnumerator->IEnumerable->IQuerable IEnumerator:枚举器 包含了枚举器含有的方法,谁实现了IEnuemerator接口中的方法,就可以自定…

R语言模型评估网格搜索

### 网格搜索 ### install.packages("gbm") set.seed(1234) library(caret) library(gbm) fitControl <- trainControl(method repeatedcv,number 10,repeats 5) # 设置网格搜索的参数池 gbmGrid <- expand.grid(interaction.depth c(3,5,9),n.trees (1:2…

走进NoSql

一、引入 1.1什么是NoSql NoSQL&#xff08;Not Only SQL&#xff09;是一组非关系型数据库&#xff08;或称为非SQL数据库&#xff09;的统称&#xff0c;它们提供了与传统的关系型数据库不同的数据存储和检索方式。NoSQL数据库通常用于处理大量的、分布式的、非结构化或半结…

Lora模型训练的参数-学习笔记

任何一个lora都会有三重属性&#xff0c;易调用性、泛化性和还原性&#xff0c;任何一个lora只能完美满足其中的两项&#xff1b; 易调用性&#xff1a;在已调用lora后&#xff0c;还需要多少提示词才能让该lora完全生效&#xff1b; 泛化性&#xff1a;能不能还原lora训练素…

全网超详细Redis主从部署(附出现bug原因)

主从部署 整体架构图 需要再建两个CentOs7,过程重复单机部署 http://t.csdnimg.cn/zkpBE http://t.csdnimg.cn/lUU5gLinux环境下配置redis 查看自己ip地址命令 ifconfig 192.168.187.137 进入redis所在目录 cd /opt/software/redis cd redis-stable 进入配置文件 vim redi…

git查看历史记录方法

0 Preface/Foreword 1 git reflog git reflog显示所有的操作&#xff0c;不仅仅是commit&#xff0c;也包括git pull&#xff0c;checout等动作。 1.1 查看本地和远程仓库的区别 远程仓库&#xff1a;中间的提交是直接在web端编辑 远程仓库&#xff1a;最新的提交是在本地编…

原码、补码、反码、移码是什么?

计算机很多术语翻译成中文之后&#xff0c;不知道是译者出于什么目的&#xff0c;往往将其翻译成一个很难懂的名词。 奇怪的数学定义 下面是关于原码的“吐槽”&#xff0c;可以当作扩展。你可以不看&#xff0c;直接去下一章&#xff0c;没有任何影响。 原码的吐槽放在前面是…

Java修仙之路,十万字吐血整理全网最完整Java学习笔记(进阶篇)

导航&#xff1a; 【Java笔记踩坑汇总】Java基础JavaWebSSMSpringBootSpringCloud瑞吉外卖/黑马旅游/谷粒商城/学成在线设计模式面试题汇总性能调优/架构设计源码-CSDN博客 推荐视频&#xff1a; 黑马程序员全套Java教程_哔哩哔哩 尚硅谷Java入门视频教程_哔哩哔哩 推荐书籍&am…