音视频技术开发周刊 | 305

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

d47b829cc8bba61ff63cf3574cd988d8.png

大神回归学界:何恺明宣布加入 MIT

「作为一位 FAIR 研究科学家,我将于 2024 年加入麻省理工学院(MIT)电气工程与计算机科学系 EECS 担任教职。」

AI 领域的著名学者,ResNet 发明人何恺明,最近在个人网站上宣布即将回归学界了。

3649493fe23d6cb142466814a175c3c7.png

Meta新开源模型AudioCraft炸场!文本自动生成音乐

8月3日,全球社交、科技巨头Meta(Facebook、Instagram等母公司)宣布开源文本生成音乐模型Audiocraft。据悉,Audiocraft是一个混合模型,由MusicGen、AudioGen和EnCodec组合而成。仅用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

从「生成式AI」转化为「生产力」,亚马逊云科技划出重点

凭借过去数年的客户需求洞察和技术积累,亚马逊云科技将大量的 AI 能力集成到了简单易用的产品之中,希望以最简洁的方式将技术进步输送到各行各业。在这场技术盛会上,亚马逊云科技一口气推出了七项生成式 AI 新功能。

人类创造的数据太贵了!开发者悄悄使用AI合成数据训练模型

现在,开发者都在悄悄使用AI生成的数据来训练AI模型。原因就是——人类创造的数据,实在是太贵了!

在以往,大多数AI模型都是靠人类的数据训练的,但现在,越来越多的公司(包括OpenAI、微软,以及Cohere这样的初创公司)都开始使用这种AI生成的「合成数据」,或者在努力搞清如何使用AI生成的数据了。

报告:数见潮流,洞见未来——发现内容行业新机遇

中国内容应用生态覆盖用户规模稳步增长,结构性变化呈现视频形态规模与粘性双增长,深度信息内容消费增加,进而影响企业层面品牌认知与种草转化,同时,AIGC变革生产力,内容产业生态多元化入局+平台赋能纵深,内容资产成为企业核心资产之一,内容运营是必选项。

c388fc9f306e3a7d8d8b5b2935090910.png

如何设计一颗AI芯片?来自Meta的实践!

机器学习(ML)已经在在线活动中变得无处不在。近年来,这些模型的规模和复杂性大幅增长,这有助于提高预测的准确性和有效性。然而,与此同时,这种增长给用于大规模训练和推理这些模型的硬件平台带来了巨大挑战。总拥有成本(TCO)是在数据中心将模型投入生产的主要制约因素之一,而功率是这些平台TCO的重要组成部分。因此,单位TCO的性能(以及每瓦的性能)已成为针对机器学习的所有硬件平台的重要衡量标准。

三雄并立的MCU市场

微控制器(Microcontroller Unit,MCU)是一类集成了中央处理器、内存、输入输出接口和定时器等功能的微型计算机芯片。自20世纪70年代问世以来,MCU技术在各个领域取得了巨大成功,并在当今数字化时代发挥着至关重要的作用。惊人的是,一个小小的微控制器却占据着处理器市场的80%以上份额!随着世界各地的半导体企业都参与到MCU技术的研发和生产中,MCU市场呈现多元化、竞争激烈的格局。

6663fa29698034d2c15a2adfa0235b0c.jpeg

自动驾驶企业摆脱高精地图依赖的情况下,SLAM算法在行车过程中还有什么意义?

这篇文章由多个知乎高赞回答整理而成,希望对关注自动驾驶领域SLAM算法应用的读者有所帮助。

动态环境下竟然能在嵌入式系统上实现实时语义RGB-D SLAM?

大多数现有的视觉SLAM方法严重依赖于静态世界假设,在动态环境中很容易失效。本文提出了一个动态环境下的实时语义RGB-D SLAM系统,该系统能够检测已知和未知的运动物体。为了减少计算成本,其只对关键帧进行语义分割以去除已知的动态对象,并保持静态映射以实现稳健的摄像机跟踪。此外,文章还提出了一个有效的几何模块,通过将深度图像聚类到几个区域,并通过它们的重投影误差来识别动态区域,从而检测未知的运动物体。

动态视觉SLAM的亿点点思考

动态环境下的视觉SLAM一直都是研究的重点和难点,但最近动态SLAM的paper越来越少,感觉主要原因是动态SLAM的框架已经固化,很难做出大的创新。现有的模板基本就是使用目标检测或者语义分割网络剔除动态特征点,然后用几何一致性做进一步的验证。笔者最近也在思考突破口,所以打算深入分析一下目前的主流方案,希望能够寻找到灵感。

68eae9c41bff29a4600afe697966e867.png

F-LIC:基于FPGA的细粒度管道的学习型图像压缩

最近,学习图像压缩(LIC)在压缩比和重建图像质量方面都表现出了卓越的能力。通过采用变异自动编码器框架,LIC 可以超越最新传统编码标准 VVC 的内部预测。为了加快编码速度,大多数 LIC 框架都在 GPU 上使用浮点运算。然而,如果编码和解码在不同的平台上进行,浮点运算结果在不同硬件平台上的不匹配会导致解码错误。因此,非常需要采用定点运算的 LIC 。

这篇论文给出了 8 位定点量化 LIC 的 FPGA 设计。不同于现有的 FPGA 加速器,该文提出了一种细粒度流水线结构,以实现较高的 DSP 效率。此外,还开发了级联 DSP 和跳零解卷功能,以提高硬件性能。

CVPR 2023 | 屏幕图像超分中的B样条纹理系数估计

随着多媒体应用的快速发展,屏幕内容图像(SCI)已在人们日常生活中频繁出现。但是显示设备和SCI之间经常发生分辨率不匹配,并且,SCI有着边缘薄而锐利等特点,与自然图像很不同。然而,大多数超分辨率方法是应用于自然图像的。因此,本文提出了一种针对SCI的超分辨率方法。本文提出了利用INR连续表示SCI的B样条纹理系数估计器(BTC),从低分辨率(LR)图像中预测B样条曲线的系数、节点和膨胀参数。然后,将查询点的坐标投影到2维B样条表示的空间中,并将其馈送到MLP。利用B样条基函数的正约束和紧支撑性,在SCI的不连续处减少了下冲/过冲带来的失真。

378f2adf81e594c169d7b65b7af67298.jpeg

Zoom正式支持AV1了!

当地时间7月28日的Zoom更新,官方发布的Release notes中的增强功能部分显示,“为了提供更高质量的视频而不增加带宽使用量,Zoom正在推出一种新的视频编解码器给免费账户使用”。现在Windows,macOS,Linux,Android,iOS端的Zoom都已经支持AV1这个“下一代编码器”。

https://support.zoom.us/hc/en-us/articles/17763841523213-Release-notes-for-July-24-2023   

BILIVVC编码器首次亮相MSU国际视频编码器大赛并获得多项好成绩

BILIVVC在1fps和5fps档位的YUV-SSIM指标下均获得了第三名的成绩。BILIVVC编码器的性能在众多参赛编码器中名列前茅。

BILIVVC编码器在H266内核的基础上,实现了VVC标准支持的绝大多数编码工具,同时对这些编码工具进行了大量优化,相较于参考代码的实现方式而言,各个工具在BILIVVC上的性能表现更为高效。

基于AI和NPU的Codec变革——VPU与NPU的协同创新

在这个快速变化的数字媒体时代,Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战,同时VPU与NPU的发展与协同创新,使得Codec能够更好地适应复杂的场景和需求,并实现更高水平的图像和声音处理能力。

LiveVideoStackCon2022北京站邀请到了中心微电子多媒体技术总监的孔德辉老师,从多个角度探讨AI和NPU对Codec的影响,包括算法优化、性能提升、能效改进等方面。深入了解基于AI和NPU的Codec变革的关键因素和潜在机会,进一步推动数字媒体领域的创新和发展。

2173cf23c9a82e2561c6efccf7bd27cb.png

Streaming Media East 2023 | About VVC

VVC(Versatile Video Codec)是基于 HEVC 的混合视频编码,通过完善现有的技术和增加一系列在 HEVC 及过去的编解码器中所没有的工具,它的性能相较 HEVC 在主客观上分别提升了 30% 和 40+%。VVC 面向 8k、360°、HDR 等一系列场景,这也是它被命名为多功能视频编解码器的原因。

VVC在云端和浏览器播放中的应用

通用视频编码(VVC)是由ITU-T和ISO/IEC联合开发的最新国际视频编码标准。虽然VVC具备广泛的功能集,可应用于多种领域,但相较其前身高效视频编码(HEVC),VVC在保持相同主观视频质量的前提下,可显著降低约50%的比特率。标准化工作于2020年7月完成后,已开始许多活动,以便将VVC集成到实际应用中。

这篇论文展示了如何在流媒体应用中实现使用VVC的实际工作流程。我们展示了弗劳恩霍夫(Fraunhofer)VVenC VVC编码器如何被应用于Bitmovin的基于云的编码解决方案。同时详细介绍了VVC如何影响实际决策,如选择最佳比特率阶梯,以及与其他编码器相比的成本和性能对比。最后,演示了弗劳恩霍夫VVdeC解码器如何与WebAssembly结合,实现在浏览器中实时播放VVC视频的可能性。

https://dl.acm.org/doi/10.1145/3510450.3517305

cad60b85457d8d8a9e98934503e47f88.png

苹果空间音频新专利 | 为可穿戴设备用户提供空间音频导航系统

近日,美国专利商标局正式授予苹果一项与空间音频导航相关的专利,该专利将在未来的AirPods、智能眼镜和更轻量级的Vision Pro上使用。该系统通过双耳音频设备播放指向性音频,为用户提供导航提示,帮助他们找到穿过商场、其他场所或城市公园的路。该系统还可以为车辆驾驶员提供音频导航。

Interspeech2023 | 跨语言语音识别中基于联合语音表征学习的音素到词转码器

跨语言语音识别(Cross-lingual Speech Recognition)的目标是利用高资源语言的发音信息,应用于低资源语言,提升低资源语言语音识别性能。全球共有7000多种语言,其中大部分语言的标注数据严重不足。为了应对低资源语音识别的挑战,跨语言语音识别成为了一种有效的解决方案。新近研究表明,基于无监督预训练技术,通过在可用语言的标注和无标注数据上进行大规模训练,可以构建一个通用的语音表示模型,并通过微调将其迁移到目标低资源语言上,取得了显著的成果。

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

近日,清华大学语音和语言技术团队联合北京邮电大学发布了中国明星多场景音视频多模态数据集 (CN-Celeb-AV),供音视频多模态身份识别 (AVPR) 等领域的研究者使用。本数据集包含来自1,136名中国明星,超过419,000个视频片段,涵盖11种不同的场景,并提供了完备模态和非完备模态两套标准评测集。

通话降噪算法在手机和IOT设备上的应用和挑战

随着电子产品的升级换代,用户对通话质量的要求也越来越高。通话降噪算法对通话质量起到了关键核心的作用。计算资源的提升使得深度学习模型在便携式的低功耗芯片上面跑起来了,器件成本降低让IoT设备开始使用骨导传感器,,那怎么样才能将深度学习和传统算法结合?怎么样充分利用好骨导传感器?怎么样将客观测试的结果转化为真实的用户体验?这也是新时期通话算法面临的新的挑战。LiveVideoStackCon 2022北京站邀请到了王林章老师,为我们分享通话降噪算法在手机和IOT设备上的应用和挑战。 

3fb3d19981d6fc704ed14b0f1ab58801.png

第15种XR视频模式—3.5D矩形视频模式

今年(2023年),随着Apple Vision Pro的发布,视频透视(VST)有了标杆性产品。根据VST本身的价值,我预测未来市场上将会新增3种融合现实视频模式。3.5D矩形视频模式,可透视3D全景视频模式,BR/MR虚实拼接模式模式。 

苹果Vision Pro中文开发教程汇总(第3期)

本文包含了探索空间计算的Quick Look 、将SwiftUI带到下一个维度、 适用于空间计算的Safari等7个视频教程。

微软AR/VR专利分享改进的显示基板和背板基板的Micro-LED显示器件

由于分辨率,尺寸,效率,以及耐烧屏方面的优势,Micro-LED正在成为AR/VR头显厂商关注的一个重要领域。实际上,微软同样有所关注,并已申请了名为“Micro-led display”的专利。

fae7ec0e822e6b1bb26113875665f35c.png

半导体工艺控制设备行业研究:国产化率不足5%,替代空间大

半导体工艺控制设备主要包括“面向晶圆制造的前道检测”和“面向先进封装的中道检测”。传统的集成电路工艺主要分为前道和后道,随着集成电路行业的不断发展进步,后道封装 技术向晶圆级封装发展,从而衍生出先进封装工艺。

815dc40afa4c34d9a8902917c8b4690e.png

OpenAI首席科学家最新访谈:对模型创业两点建议、安全与对齐、Transformer够好吗?

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题:对深度学习的信仰、对AGI的畅想,Transformer够不够好,让人震惊的涌现能力,安全和对齐,以及对模型创业者的两点建议。

直播+X——直播行业新趋势

人类对感受与体验的不断追求,趋势音视频技术迅猛发展,音视频服务以前所未有之势被各行业强烈需要。如今,直播已然是一个所有人耳熟能详的名词,直播业务和生态,以及关键支撑技术,都在持续演进和迭代,生机勃勃。本次LiveVideoStackCon 2023上海站邀请到华为云陆振宇为大家分享如何在直播行业让“老树长新芽”。

对话云从姜迅:大模型不是企业、国与国之间的竞争,可能是人类命运共同体的钥匙

如今,人机协同操作系统的定位也一直延续到了大模型时代。姜迅表示,虽然公司内部没有明确的‘最高战略’的提法,但对这件事情的重视度已经非常高了,我们不用‘最’这个词,用优先级来说,它确实是一个非常高的优先级。

反观国内大模型的发展,大部分企业仍停留在追热点阶段,并没有实质性进展。那云从是否也在追热点?姜迅给出了否定的答案。他表示,我们还在研究我们的人机协同操作系统,在GPT技术之上,人机协同操作系统的智商会越来越高,它不仅会增加其上限,还能降低成本,这能在很大程度上让该系统更好地服务客户,竞争优势也会增加。

b476db6075643bc745a6223bbdd15181.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。

本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。

29c35f5d7e88296b05f8326f75df9eb9.png

f96f05e1c57347cf78a7a20524fc80b0.jpeg

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/70942.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MOCK测试

介绍 mock:就是对于一些难以构造的对象,使用虚拟的技术来实现测试的过程。 mock测试:在测试过程中,对于某些不容易构造或者不容易获取的对象,可以用一个虚拟的对象来代替的测试方 法。 接口Mock测试:在接口…

后端开发8.品牌模块

概述 简介 效果图 数据库设计 DROP TABLE IF EXISTS `goods_brand`;CREATE TABLE `goods_brand` ( `goodsBrandId` int(11) NOT NULL AUTO_IN

上篇文章viewerjs(npm包补丁)的错误更正。(npm补丁本地没问题,流水线打包要没效果,要么报错)

1、上篇文档的包补丁在本地使用没有问题,并且同事拉代码后也会自动同步npm_modules,也没有问题 2、问题出现在打包上,我这边的项目是用teambition上的飞流设置的流水线来进行打包的,里面用到了两个指令 yarn install npm run bu…

uniapp开发(由浅到深)

文章目录 1. 项目构建1.1 脚手架构建1.2 HBuilderX创建 uni-app项目步骤: 2 . 包依赖2.1 uView2.2 使用uni原生ui插件2.3 uni-modules2.4 vuex使用 3.跨平台兼容3.1 条件编译 4.API 使用4.1 正逆参数传递 5. 接口封装6. 多端打包3.1 微信小程序3.2 打包App3.2.1 自有…

element-ui表格数据为空,图片占位提示

当表格的绑定数据为空时常需要显示暂无数据等字样&#xff0c;这时候就用到了empty-text <el-table:data"tableData"stripeborderempty-text"暂无数据"> 但&#xff0c;当数据为空&#xff0c;想用图片展示呢&#xff0c;如下图 方法一&#xff1a…

前端学习---vue2--选项/数据--data-computed-watch-methods-props

写在前面&#xff1a; vue提供了很多数据相关的。 文章目录 data 动态绑定介绍使用使用数据 computed 计算属性介绍基础使用计算属性缓存 vs 方法完整使用 watch 监听属性介绍使用 methodspropspropsData data 动态绑定 介绍 简单的说就是进行双向绑定的区域。 vue实例的数…

QT信号与槽的理解

文章目录 信号与槽的理解 信号与槽的理解 信号就是事件&#xff0c;比如button被点击的事件&#xff0c;ComboBox选项改变的事件&#xff0c;都是信号槽就是对信号进行响应的函数&#xff0c;可以是任意自定义函数一个信号可以对应多个槽多个信号可以对应一个槽信号的参数不能…

以mod_jk方式整合apache与tomcat(动静分离)

前言&#xff1a; 为什么要整合apache和tomcat apache对静态页面的处理能力强&#xff0c;而tomcat对静态页面的处理不如apache&#xff0c;整合后有以下好处 提升对静态文件的处理性能 利用 Web 服务器来做负载均衡以及容错 更完善地去升级应用程序 jk整合方式介绍&#…

栈和队列详解(1)

目录 一、什么是栈&#xff1f; 二、创建一个我们自己的栈 1.前置准备 1.1需要的三个文件 1.2结构体的创建和头文件的引用 2.接口的实现 2.1初始化栈结构体 2.2尾插(压栈) 2.3栈存放的元素个数和判断栈是否为空 2.4获取栈顶元素 2.5出栈 2.6摧毁栈 2.7测试接口 三、…

Qt扫盲-QWidget理论使用总结

QWidget理论使用总结 一、概述二、顶层 控件 和子 控件三、复合控件四、自定义控件和绘制五、大小提示和大小策略六、事件七、一组函数和属性八、QWidget样式表九、透明度和双缓冲十、创建半透明窗口 一、概述 widget 是用户界面的最小单位&#xff1a;它从window系统接收鼠标…

scope,deep穿透的实际应用

一.父组件代码 <template><div id"app"><h1 class"box"><pageName> </pageName></h1></div> </template><script> import pageName from "../src/components/pageName.vue"; export de…

threejs点击模型实现模型边缘高亮的选中效果--更改后提高帧率

先来个效果图 之前写的那个稍微有点问题&#xff0c;帧率只有30&#xff0c;参照官方代码修改后&#xff0c;帧率可以达到50了&#xff0c;在不全屏的状态下&#xff0c;帧率60 1.首先需要导入库 // 用于模型边缘高亮 import { EffectComposer } from "three/examples/js…

基于 eclipse-temurin 镜像部署spring boot 应用

基于 eclipse-temurin 镜像部署spring boot 应用 使用场景示例项目 使用场景 在CI流程中&#xff0c;一般都会集成 打包&#xff0c;构建镜像&#xff0c;分发&#xff0c;启动容器之类的流程&#xff1b; 这里提供一个示例&#xff0c;进攻参考 示例项目 项目结构如下 run…

佛祖保佑,永不宕机,永无bug

当我们的程序编译通过&#xff0c;能预防的bug也都预防了&#xff0c;其它的就只能交给天意了。当然请求佛祖的保佑也是必不可少的。 下面是一些常用的保佑图&#xff1a; 佛祖保佑图 ——————————————————————————————————————————…

架构实践方法

一、识别复杂度 将主要的复杂度问题列出来&#xff0c;然后根据业务、技术、团队等综合情况进行排序&#xff0c;优先解决当前面临的最主要的复杂度问题。对于按照复杂度优先级解决的方式&#xff0c;存在一个普遍的担忧&#xff1a;如果按照优先级来解决复杂度&#xff0c;可…

基于人工智能的中医图像分类系统设计与实现

华佗AI 《支持中医,永远传承古老文化》 本存储库包含一个针对中药的人工智能图像分类系统。该项目的目标是通过输入图像准确识别和分类各种中草药和成分。 个人授权许可证 版权所有 2023至2050特此授予任何获得华佗AI应用程序(以下简称“软件”)副本的人免费许可,可根据以…

Java并发编程(四)线程同步 中 [AQS/Lock]

概述 Java中可以通过加锁&#xff0c;来保证多个线程访问某一个公共资源时&#xff0c;资源的访问安全性。Java提出了两种方式来加锁 第一种是我们上文提到的通过关键字synchronized加锁&#xff0c;synchronized底层托管给JVM执行的&#xff0c;并且在java 1.6 以后做了很多…

第三章 图论 No.10无向图的双连通分量

文章目录 定义Tarjan求e-DCCTarjan求v-DCC395. 冗余路径1183. 电力396. 矿场搭建 定义 无向图有两种双连通分量 边双连通分量&#xff0c;e-DCC点双连通分量&#xff0c;v-DCC 桥&#xff1a;删除这条无向边后&#xff0c;图变得不连通&#xff0c;这条边被称为桥 边双连通分…

Jenkins 修改默认管理员帐号

1、新增一个新的超级管理员用户&#xff0c;并验证能正常登录 2、进入 Jenkins 用户管理目录&#xff1a; /data/software/jenkins/users 3、修改超级管理文件夹的名称为其他名称&#xff0c;如&#xff1a;mv admin_*** ifadm_*** 4、重启Jenkins容器

「C/C++」C/C++搭建程序框架

✨博客主页何曾参静谧的博客&#x1f4cc;文章专栏「C/C」C/C程序设计&#x1f4da;全部专栏「UG/NX」NX二次开发「UG/NX」BlockUI集合「VS」Visual Studio「QT」QT5程序设计「C/C」C/C程序设计「Win」Windows程序设计「DSA」数据结构与算法「File」数据文件格式 目录 术语介绍…