音视频技术开发周刊 | 304

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

00d6a3859a9afcf8a6b00b4d30f36351.png

更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了

Meta 终于发布了大家期待已久的免费可商用版本 Llama 2。

6000份问卷透露出AI时代的职业焦虑与机遇 |附报告下载

AI大模型的发展日新月异,从ChatGPT到 GPT4,再到越来越多的行业模型,曾经我们认为离我们还很遥远的人工智能技术,似乎已经到达了一个临界点,出现了技术“涌现”和能力“跃迁”。在美国模拟律师考试中的得分中,GPT-4能够排进前 10% 左右,相比之下,GPT-3.5 的得分只能排在倒数 10% 左右。很多人已经开始越来越担心自己未来的职业会被取代,产生了多种维度的职业焦虑。

a31dee3e8933592e01b719166ffc26fb.png

商家们的第一次AI上新背后:阿里妈妈万相实验室重磅来袭

阿里妈妈万相实验室,为商家上新带来的0成本适配模特、0成本创造场景、30秒批量创造高规格商品图的AI上新能力。目前,安踏、particle fever(粒子狂热)、欧舒丹、VERMO、恣无ZIWU等大小商家均已体验,正引领全行业商家迈入AI上新时代。

450a6ce53df754c474c8a457032b2f4a.png

IGBT产业公司汇总及知识学习

IGBT,绝缘栅双极型晶体管,是由(BJT)双极型三极管和绝缘栅型场效应管(MOS)组成的复合全控型电压驱动式功率半导体器件, 兼有(MOSFET)金氧半场效晶体管的高输入阻抗和电力晶体管(GTR)的低导通压降两方面的优点。

实现超快可编程的二维原子晶体同质结 | 进展

二维原子晶体具有带隙可调控、高迁移率、低介电常数和新奇的自旋、能谷等特性,利用二维原子晶体的这些优异特性,可研制面向下一代的信息功能器件,从而构建集成电路。p-n结作为现代电子学和光电子学中最基本的单元器件,如何构筑二维原子晶体p-n结对于未来发展基于二维晶体的电子器件具有重要研究意义。

芯片散热挑战,刻不容缓!

半导体消耗的功率会产生热量,必须将热量从设备中排出,但如何有效地做到这一点是一个日益严峻的挑战。

热量是半导体的废物。当功率在设备和电线上耗散时就会产生这种现象。设备切换时会消耗电力,这意味着它取决于活动,并且不完美的设备和电线不断地浪费电力。设计很少是完美的,一些热量来自于执行不需要的功能的活动。但在某些时候,设计团队必须弄清楚如何消除热量,因为如果不这样做,产品的使用寿命将非常短。

采访克里斯·米勒|芯片之战:世界上最关键技术的争夺

半导体产业的控制斗争是当今世界最重要的经济故事之一。中国能否从美国及其民主盟友手中夺取对半导体的主导地位,就像它在许多其他高科技产业中所做的那样,将在很大程度上决定本世纪的军事平衡。而了解这场史诗般斗争的基本情况,最好的书籍莫过于塔夫茨大学历史学家克里斯·米勒撰写的《芯片之战:世界上最关键技术的争夺》。

在采访中,米勒回答了一系列广泛的问题,涉及出口管制、中国的努力、芯片法案、美国对半导体工人的需求、日本振兴本国芯片产业的尝试等等。

https://www.noahpinion.blog/p/interview-chris-miller-historian

ca02adeed62dcce6b528a0938c7a1e1c.jpeg

CVPR 2023 | 南洋理工、商汤提出E3DGE:2D图片秒出3D形象

在CVPR 2023上,南洋理工大学-商汤科技联合实验室S-Lab的研究者提出的基于Encoder的快速3D GAN Inversion方法,针对现有3D GAN inversion方法无法兼顾重建速度、重建质量和编辑质量的问题,提出一种自监督3D GAN inversion训练框架。同时,通过构建全局-局部的多尺度结构以及2D-3D混合对齐模型实现了高保真、可编辑的3D重建。该方法适配包括StyleSDF、EG3D等SoTA 3D GAN模型,并在多个基准测试中取得了优异成绩。

SLAM中基于滤波的方法的问题及如何调参?

这篇文章由知乎优秀问答整理而成,题主在实践slam后端滤波相关的内容时,在看论文和跑实验的过程中发现了诸如“论文公式和实际代码实现不一样”等几个令他困惑的问题。文章汇总了该问题下的若干优秀回答,希望对读者有所启发。

3d9bfc9ebdeb13e84d13a24c252a29ab.png

ICASSP 2023 | 用于学习图像压缩的多级空间上下文模型

最先进的学习图像压缩方法以空间上下文模型为特色,与超先验方法相比,在率失真方面取得了巨大的改进。然而,自回归上下文模型需要串行解码,限制了运行性能。Checkerboard 上下文模型允许并行解码,但代价是降低 RD 性能。本文提出了一系列多级空间上下文模型,可以实现快速解码和更好的 RD 性能。

UniColor:使用 Transformer 进行多模态上色的统一框架

这篇文章提出了一种多模态统一的上色框架,支持笔画、范例和文本提示输入,同时还支持局部编辑。通过将三种不同形式的提示输入转化为提示点的方式进行统一,上色网络包括Chroma-VQGAN 和 Hybrid-Transformer两部分,其中Chroma-VQGAN用于特征提取和重建,通过将灰度通道和颜色通道分开处理的方式保留更多灰度细节,Hybrid-Transformer则专注于上色。最后文章设计了一个应用界面,展示了该统一框架在实际使用中的有效性。

0b446c3f523ef29ad1f51cbc7d859dac.png

DCVC-DC | 多种上下文的神经视频压缩

视频编解码器的原理是,对于当前要编码的信号,编解码器会从之前重构的信号中找到相关的上下文(例如,各种预测作为上下文),以减少时空冗余。相关上下文越多,比特率节省就越高。但对于大多数神经视频编解码器(NVC),上下文提取和利用的方式仍然有限。

这篇论文则在时间和空间维度上增加上下文多样性以进一步提高 NVC。时间维度上,本文指导模型跨帧学习分层质量模式,进一步利用视频中的长距离时间相关性,并有效缓解大多数 NVC 中存在的质量退化问题。

patchVVC:用于流式体积视频的实时压缩框架

现如今,体积视频已成为一种吸引人的多媒体应用,为用户提供高度沉浸式的观看体验。然而,流式传输体积视频对带宽要求极高。因此,有效地压缩其基础点云帧对于部署体积视频至关重要。现有的压缩技术要么基于3D,要么基于2D,但它们在实际部署中仍存在缺陷。基于2D的方法在压缩视频时效果较好但速度较慢,而基于3D的方法速度较快但压缩比较低。在本文中,我们提出了patchVVC,这是一个基于3D的压缩框架,它既具有高压缩比又实现了实时解码速度。更重要的是,patchVVC是基于点云补丁设计的,使其适用于视场自适应流媒体系统,进一步降低了带宽需求。评估结果显示,在视场自适应流媒体场景中,patchVVC实现了与代表性基于2D的方案V-PCC相当的实时解码速度和可比较的压缩比。

https://dl.acm.org/doi/10.1145/3587819.3590983

d90a1db205433d56030a46c2b3a7355b.png

研究人员将声音精确分解为三个基本组成部分

这种来自听觉感知的洞察力与模糊逻辑相结合:在任何时刻,声音的一部分可以属于三种正弦、瞬态或噪声中的任何一类,而不仅仅是其中之一。为了完美的重建,Fierro优化了声音的分解方式。

研究人员开发音频插件VIRTUOSO通过耳机体验身临其境的3D音频

经过五年多的前沿研究项目,音响工程师现在可以通过耳机体验真正身临其境的3D音频,而无需使用扬声器。

由哈德斯菲尔德大学(University of Huddersfield)的Hyunkook Lee博士领导的应用心理声学实验室(Applied Psychoacoustics Lab,APL)开发了一种名为VIRTUOSO的沉浸式音频插件。

ICASSP 2023说话人识别方向论文合集

ICASSP (International Conference on Acoustics, Speech and Signal Processing) 即国际声学、语音与信号处理会议,是IEEE主办的全世界最大、最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。

今年入选 ICASSP 2023 的论文中,说话人识别(声纹识别)方向约有64篇,初步划分为Speaker Verification(31篇)、Speaker Recognition(9篇)、Speaker Diarization(17篇)、Anti-Spoofing(4篇)、others(3篇)五种类型。

742da81e9a2e4f4cda6812ce926401e8.png

B站虚拟人与动作捕捉技术

随着虚拟主播在B站等平台的火爆,越来越多的用户和主播对虚拟直播产生了浓厚的兴趣。3D写实风格的虚拟人不仅视觉效果出众,还能提供沉浸式的直播体验,为用户带来全新的观看感受。如抖音推出的3D超写实虚拟主播令颜欢,出道一周粉丝就突破了60万,全网视频播放量破亿,直播间更是突破了百万人次的场观水平。3D写实风格的虚拟人有望成为未来虚拟直播领域的市场趋势。

VisionPro 眼动追踪精度 推算讨论

这篇文章讨论了VisionPro眼动追踪精度测算问题,然后讨论对比肉眼直接观看的差别,以及行业内其他公司的眼动追踪数据对比。

MicroOLED For AR/VR 洞察报告

该报告基于警长产业链调研输出,内容包括:AR/VR的核心需求及核心技术、AR/VR屏幕分类、特点及发展趋势、AR/VR with MicroOLED 历史、AR/VR with MicroOLED 产品预测、全球MicroOLED销售额预测、全球MicroOLED产业链全景图、MicroOLED核心供应链、苹果眼镜MicroOLED供应链、Rokid眼镜MicroOLED供应链等。

8d8074b1e58f967f7fcd893686ec6510.png

福布斯刊文评苹果眼镜:上市即售罄

无论你本能地喜欢还是厌恶它,它都为品牌体验、交互和品牌内容消费创造了新的可能性。因此,各行业具有前瞻性思维的品牌都应该予以关注。

人工智能行业深度报告:AI大模型赋能千行百业

AI+办公是此次 AIGC 浪潮中的核心受益方向。此次 AIGC 浪潮的引爆点是基于自然语言处理大模型技术的文字创作工具 ChatGPT 快速成长为火爆全球的现象级应用,随后基于对图像、视频、音频等进行处理的多模态大模型的应用也快速推广起来。AIGC 即生成式人工智能天然是面向文字、音视频、图像等内容自主创作场景的 AI 技术,因而其可以直接提升现有各类型办公软件的产品力,从而推动办公软件的迭代升级。

3b375168cc71fd675ef5f904624be279.png

专访明略科技CTO郝杰:大模型也会被颠覆,要找到产品的临界点!

在新技术实际产生难以置信的变革效果之前,往往存在一个不长不短的“炒作”鸿沟:有的入局者激流勇进,乐在其中;而有的玩家则放慢脚步,重新思考如何凸显创新的价值。 

那么,大模型如何发挥出大众和产业所期待的价值?如何打造行业大模型?又该如何评价大模型产品的好坏?

彭博社:开发者对Vision Pro应用开发持谨慎态度

彭博社的马克·古尔曼(Mark Gurman)在新一期的Power On中指出,尽管第三方应用程序对苹果Vision Pro的成功至关重要,但这款设备的昂贵定价和小众特性意味着一开始不会有大量的开发者投身其中。

不过,古尔曼认为由于Vision Pro的用户是一群愿意消费的群体,所以开发者可以为visionOS版本应用收取更高的费用。其中,他认为20美元会成为一个付费应用的定价起点,而其中大多数应用程序的价格会在50美元到250美元之间,特别是在平面设计或生产力类别。

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/54630.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Diffusion扩散模型学习3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例

Diffusion扩散模型学习3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例 学习前言源码下载地址网络构建一、什么是Stable Diffusion(SD)二、Stable Diffusion的组成三、img2img生成流程1、输入图片编…

如何获取微信公众号关注主页地址

1,首先。在公众号后台发布一篇文章,(文章也可以关注公众号) 2,浏览器打开文章地址 。在页面找到_biz码 3,https://mp.weixin.qq.com/mp/profile_ext?actionhome&__bizxxxxx&scene110#wechat_redi…

减轻 PWM 的滤波要求

经典脉宽调制器 (PWM) 发出 H 个连续逻辑高电平(1),后跟 L 个连续逻辑低电平(0)的重复序列。每个高电平和低电平持续一个时钟周期 T 1/F (Hz)。结果的占空比可定义为 H/N,其中 N HL 时钟周期。N 通常是 2…

谷粒商城第六天-商品服务之分类管理下的获取三级分类树形列表

目录 一、总述 1.1 前端思路 1.2 后端思路 二、前端部分 2.1 在网页中建好目录及菜单 2.1.1 建好商品目录 2.1.2 建好分类管理菜单 ​编辑 2.2 编写组件 2.2.1 先完成组件文件的创建 2.2.2 编写组件 2.2.2.1 显示三级分类树形列表 三、后端部分 3.1 编写商品分类…

matlab编程实践16、17

捕食者与猎物模型 人口增长 在人口增长或衰减的最简单模型中,增长速度或衰减速度与人口本身的数目成正比。增加或减少人口规模会导致出生和死亡数量成比例地增加或减少。在数学上,可以由以下微分方程描述。 可以得出:,其中。 该简…

2023-08-01 LeetCode每日一题(英雄的力量)

2023-08-01每日一题 一、题目编号 2681. 英雄的力量二、题目链接 点击跳转到题目位置 三、题目描述 给你一个下标从 0 开始的整数数组 nums ,它表示英雄的能力值。如果我们选出一部分英雄,这组英雄的 力量 定义为: i0 ,i1 &…

Redis - 三大缓存问题(穿透、击穿、雪崩)

缓存穿透 概念: 查询一个数据库中也不存在的数据,数据库查询不到数据也就不会写入缓存,就会导致一直查询数据库 解决方法: 1. 缓存空数据 如果数据库也查询不到,就把空结果进行缓存 缺点是 - 消耗内存 2. 使用布…

ModuleNotFoundError: No module named ‘_sqlite3‘

前言 遇到报错信息如下: ModuleNotFoundError: No module named _sqlite3解决方式 参考解决方式: https://blog.csdn.net/jaket5219999/article/details/53512071 find / -name _sqlite*.socp /usr/lib64/python3.6/lib-dynload/_sqlite3.cpython-36…

Go语言性能优化建议与pprof性能调优详解——结合博客项目实战

文章目录 性能优化建议Benchmark的使用slice优化预分配内存大内存未释放 map优化字符串处理优化结构体优化atomic包小结 pprof性能调优采集性能数据服务型应用go tool pprof命令项目调优分析修改main.go安装go-wrk命令行交互界面图形化火焰图 性能优化建议 简介: …

从0到1开发go-tcp框架【1-搭建server、封装连接与业务绑定、实现基础Router、抽取全局配置文件】

从0到1开发go-tcp框架【1-搭建server、封装连接与业务绑定、实现基础Router】 本期主要完成对Server的搭建、封装连接与业务绑定、实现基础Router(处理业务的部分)、抽取框架的全局配置文件 从配置文件中读取数据(服务器监听端口、监听IP等&a…

记一次phpmyadmin巧妙利用

声明:文中涉及到的技术和工具,仅供学习使用,禁止从事任何非法活动,如因此造成的直接或间接损失,均由使用者自行承担责任。 点点关注不迷路,每周不定时持续分享各种干货。 原文链接:众亦信安&a…

Spring中最简单的过滤器和监听器

1. 过滤器概念引入 Filter也称之为过滤器,它是Servlet技术中最实用的技术,Web开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp, Servlet, 静态图片文件或静态 html 文件等进行拦截,从而实现一些特殊的功…

在Windows 10和11中恢复已删除的照片

可以在Windows 10或11上恢复已删除的照片吗? 随着技术的发展,越来越多的用户习惯在电子设备上存储照片。如果这些照片被删除,可能会给用户带来重大损失。当照片丢失时,您可能会想是否可以恢复已删除的照片? …

LabVIEW 开发在不确定路况下自动速度辅助系统

LabVIEW 开发在不确定路况下自动速度辅助系统 智能驾驶辅助系统是汽车行业最先进的升级和尖端技术,智能交通系统依靠智能驾驶辅助系统在公共交通部门工作。该智能驾驶辅助系统技术包括自适应巡航控制,防抱死制动系统,安全气囊展开&#xff0…

腾讯云从业者认证考试考——云服务器

文章目录 云服务器的产品概览腾讯云服务器的优势腾讯云服务器选型腾讯云服务器计费方案 云服务器的产品概览 腾讯云服务器的产品? CVM云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 可以在云端获取和启用 CV…

根据前序和中序遍历序列构造二叉树 (递归+迭代两种方法实现)

给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一棵树的中序遍历,请构造二叉树并返回其根节点。 输入: preorder [3,9,20,15,7], inorder [9,3,15,20,7] 输出: [3,9,20,null,null,15,7]源代码如下…

《吐血整理》进阶系列教程-拿捏Fiddler抓包教程(13)-Fiddler请求和响应断点调试

1.简介 Fiddler有个强大的功能,可以修改发送到服务器的数据包,但是修改前需要拦截,即设置断点。设置断点后,开始拦截接下来所有网页,直到取消断点。这个功能可以在数据包发送之前,修改请求参数&#xff1b…

逻辑回归变量系数可为负数吗?应该如何解释?

之前很多学员来问逻辑回归变量系数是否都应该为正数,如果出现负的变量系数该怎么办?是否需要重新建模?这些学员都是在网上搜索时,被错误信息误导。网上信息可以随意转载,且无人审核对错。我见过最多情况时很多文章正确…

第4章 案例研究:JavaScript图片库

案例 html部分 <h1 id"title">图片1</h1> <ul><li><!-- onclick绑定点击事件&#xff0c;this为触发dom&#xff0c;return false阻止默认行为 --><a onclick"show_img(this); return false" title"图片1" h…

命令模式-请求发送者与接收者解耦

去小餐馆吃饭的时候&#xff0c;顾客直接跟厨师说想要吃什么菜&#xff0c;然后厨师再开始炒菜。去大点的餐馆吃饭时&#xff0c;我们是跟服务员说想吃什么菜&#xff0c;然后服务员把这信息传到厨房&#xff0c;厨师根据这些订单信息炒菜。为什么大餐馆不省去这个步骤&#xf…