音视频技术开发周刊 | 323

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

844745d62465f582cdfcd92dfff636e1.png

Meta牵头组建开源「AI复仇者联盟」,AMD等盟友800亿美元力战OpenAI英伟达

超过50家科技大厂名校和机构,共同成立了全新的人工智能联盟。以开源为旗号,誓于OpenAI和英伟达一决高下。 

深度学习大牛权威预测2024年AI行业热点,盘点开源AI趋势!

AI社区大佬Sebastian总结了2023年全年AI行业的热点和问题,针对开源社区和AI研究的热点问题给出了自己读到的解读和发展建议,精彩内容千万不能错过。

跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译

Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。

AI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年

继AlphaFold系列改变了生物学领域之后,谷歌DeepMind今日再发Nature,全新AI工具GNoME,成功预测220万种晶体结构,颠覆了材料学领域。

Gemini:我们规模最大、能力最强的 AI 模型 

每一次技术的变革都是推进科学发现、加快人类进步和改善人们生活的机会。我相信我们此时正在见证的 AI 转变将是我们一生中影响最为深远的转变,其影响力远超过移动技术或互联网的转变。AI 有着为世界各地的人们创造机会的潜力,无论是在日常生活中还是在铸就非凡成就方面。它将带来新一轮的创新和经济进步,并以前所未有的规模推动知识、学习、创造力和生产力的发展。 

1c09c0e149d780139b2cd2fc5445c182.png

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。

脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%

国内团队实现对脑机接口汉语解码「零的突破」,系统覆盖了全部407个汉语拼音音节以及汉语发音特点,句子完全正确率高达30%!

全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。

手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion

近日,来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手机端最快文生图,在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UFOGen 同一团队,在打造超小扩散模型的同时, 采用当前大火的 Diffusion GAN 技术路线做采样加速。

9fe3a161549b3b2807bd40d563fe0b6f.png

3D Gaussian Splatting的福音!快速提取精确且可编辑的3D网格来啦!

本文介绍了一种从3D Gaussian Splatting表示中快速提取精确且可编辑的网格的方法。该方法利用Gaussian Splatting的渲染速度快、训练速度慢的特点,通过引入正则化项鼓励Gaussian Splatting表示与场景表面对齐,并使用Poisson重建方法从Gaussian Splatting表示中提取网格。此外,该方法还引入了一种优化策略,将Gaussian Splatting表示与网格一起优化,通过Gaussian Splatting渲染实现高效的编辑、雕塑、动画和重新光照。这种方法能够在几分钟内检索到具有更好渲染质量的可编辑网格,相比于从SDF中提取网格的方法需要几个小时。

使用库普曼线性化以及数据驱动的批量定位和SLAM 

本文提出了一个无模型批量定位和SLAM的框架。我们使用提升函数将控制仿射系统映射到高维空间,其中过程模型和测量模型都被渲染为双线性。在训练过程中,使用真实数据求解一个最小二乘问题,以纯粹从数据中计算与提升系统相关的高维模型矩阵。在推理时,通过一个优化问题来解决未知的机器人轨迹和路标,其中引入了约束,以保持解在提升函数的流形上。使用序列二次规划( SQP )有效地解决了该问题,其中SQP迭代的复杂度与时间步数呈线性比例关系。

UWB雷达SLAM:一种在视觉拒止的室内环境中的无锚点方法

激光雷达和相机常被用作同步定位与地图构建( SLAM )的传感器。然而,这些传感器在低能见度(例如烟雾)或具有反射面(例如反射镜)的地方容易失效。另一方面,电磁波在波长增加时表现出更好的穿透特性,因此不受低能见度的影响。因此,本文提出了超宽带( UWB )雷达作为现有传感器的替代方案。UWB通常被用于锚点-标签SLAM系统。在环境中安装一个或多个锚点,并将标签附着在机器人上。

https://ieeexplore.ieee.org/document/10175555/

4f5dbc9ad940b78fb283237f852c0eea.png

iPhone 15 Pro+三方软件,开拓“空间视频”平民时代

2023 苹果秋季发布会上,iPhone 15 Pro 系列带来了一个彩蛋功能——空间视频拍摄。该功能将 iPhone 与 Vision Pro 进行了生态联动,不仅增强了 Vision Pro 的用户生活场景,更能为明年 Vision Pro 的销售埋下伏笔。

评测丨一键成为虚拟偶像?索尼mocopi会是新的动捕黑科技吗?

此前,一名游戏动捕演员“曦曦鱼SAKANA”走出幕后,在b站发布了多条关于不同风格游戏角色的动作捕捉视频,因其传神的动作与表情获得了观众的高度认可,不少观众纷纷表示“仿佛看到了xx角色本人”。

Varjo最新VR/MR头显XR-4开始面向专业消费者提供

在过去,Varjo的设备主要面向企业市场,定价高昂,而且购买需要咨询问价。对于这家公司刚刚发布的全新XR-4系列头显,这是一款无需支付高额年费且直接向专业消费者销售的旗舰设备。

ba6220b8cd2a8fa82d2f25fcac673f83.png

亚马逊AI芯片,深度解读

亚马逊网络服务可能不是第一家创建自己的定制计算引擎的超大规模提供商和云构建商,但它紧随谷歌之后发布了自研的AI芯片——谷歌于 2015 年开始使用其自主研发的 TPU 加速器来处理人工智能工作负载。

GPU,巨变前夜

在3D图像学中,对于真实场景和物体的高精度建模/渲染一直是整个学界梦寐以求的目标之一。在过去几十年中,3D场景和物体建模的主流方式是基于多边形(ploygon mesh)的建模,即把一个3D建模的物体表面近似为由大量多边形组成,而多边形数量越多,则3D建模和真实物体/场景越接近。  

3D封装,成本最优的选择?

当 2.5D 和 3D 封装最初被构想出来时,普遍的共识是只有最大的半导体公司才能负担得起,但开发成本很快就得到了控制。在某些情况下,这些先进的封装实际上可能是成本最低的选择。

苹果芯片实验室首次对外公开!

美国 CNBC 发布新闻报道,称于今年 11 月访问了苹果位于加州库比蒂诺的园区,首次获批公开了苹果芯片实验室内部场景。

b2f7c0313c45e10eb58775e70164029e.png

空间音频体验与评价方案

区别于传统单通道和立体声音频,3D音频是一种带来三维沉浸式音频体验的新范式,其在制作、传输分发、端侧渲染端到端全链条都引入了更复杂的音频数据存储格式、编解码策略以及音效算法,继而为消费者带来了更身临其境的音频体验感以及空气感(eg:戴上耳机听音频,感觉就像没戴耳机且听到身边真实三维世界的声音一样),极有潜力成为未来交互式社交、沉浸式多媒体创作&娱乐、XR等产业的技术底座。

任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

今年 5 月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称 CoDi)模型,让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成,还能接收多个条件输入以及多模态联合生成。

https://arxiv.org/pdf/2311.18775.pdf

如何优化智能扬声器的语音和音频测试?

智能扬声器已经风靡千家万户,消费者满意度与其智能扬声器对语音命令的理解程度密切相关。语音清晰度和音质对于领先的平台提供商至关重要。那么,如何确保您的产品能够满足消费者的严格要求?

超声波可实现侵入性较小的脑机接口

脑机接口(BMI)是可以读取大脑活动并将该活动转换为控制假肢或计算机光标等电子设备的设备。科学家们希望能借用BMI使瘫痪的人能够用自己的思想移动假肢装置。许多BMI需要侵入性手术将电极植入大脑以读取神经活动。然而,在2021年,加州理工学院的研究人员开发了一种使用功能性超声(fUS) 读取大脑活动的方法,这是一种侵入性小得多的技术。

23121341d8496c8c9a4e103cfd257af2.png

音视频编解码--随机访问Random Access

在理想情况下,视频编码器可以发送视频第一帧的关键帧,然后每个后续帧都将表示为差异,直到视频结束。 

92e9c0cc7fbc36e84b36f5489ec8a2e7.png

NeurIPS2023 | ResShift:通过残差位移实现的用于图像超分辨率的高效扩散模型 

基于扩散的图像超分辨率(SR)方法主要因需要进行数百甚至数千次采样步骤,导致推理速度较慢而受到限制。现有的加速采样技术不可避免地在一定程度上牺牲性能,导致超模糊的SR结果。为了解决这个问题,本文提出了一种新颖高效的扩散模型用于SR,显著减少了扩散步骤的数量,从而在推理过程中消除了后加速的需求及其相关的性能下降。

ICCV 2023 | 基于不规则群解耦的语义结构图像压缩 

图像压缩技术通常侧重于压缩图像以供人类消费,这导致为下游应用传输冗余内容。为了解决这一问题,一些先前的工作提出对比特流进行语义结构划分,通过选择性的传输和重构可以满足特定的应用需求。它们根据语义将输入图像划分为多个矩形区域,但忽略了区域之间的交互信息,导致比特率的浪费和区域边界的重建失真。本文提出了基于定制的组掩码将图像解耦为多个具有不规则形状的组,并对其进行独立压缩。组掩码以更精细的粒度描述图像,减少冗余内容的传输。

385f4cb58f5d230e9f5c28637191b5a7.png

年终王炸!Amazon Q重磅登场,云巨头开创企业级生成式AI新赛道

就在刚刚,亚马逊云科技祭出了全新AI「大杀器」Amazon Q。不仅只用两天时间就升级了上千款Java应用,更是将企业的数据屏障一举击穿。

苹果选择视涯和京东方供应Vision Pro微显示器;复旦科创母基金首期十亿元启动

苹果首款 AR 硬件 Apple Vision Pro 将采用双 1.3 英寸 4K Micro-OLED 微显示器。苹果一直在与生产首款 Micro-OLED 微显示器的索尼合作,但后来的报道表明,苹果正在寻求用视涯和京东方的合作,以取代索尼作为其供应商,降低成本(并且也可能增加潜在供应,因为索尼产能有限)。    

SteamVR官方串流工具上线Quest Store;中兴通讯发布5G VR大空间沉浸剧场解决方案头条

近日,Valve所发布的官方免费串流工具Steam Link正式上线Quest Store。借助该工具,用户可以基于无线WiFi网络畅玩《Half-Life: Alyx》等SteamVR知名游戏,此外,用户还可以通过VR头显体验传统的平面游戏。

7570e034fd467b5566c687b91f96c7e0.png

重磅首发|2024音视频技术发展报告(文末附下载)

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。  

点击阅读原文

跳转报告下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/247158.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CBTC上海新能源锂电池展览会奋战华东!2024携手共赢!

2024CBTC上海新能源锂电池技术展览会|上海锂离子电池生产设备展览会 时 间:2024年7月24~26日 地 点:国家会展中心(上海虹桥) 发展前景: 随着科技的不断进步,锂电池市场逐渐成为全球能源市场的…

@Transactional注解详细使用

Transactional注解详细使用 Transactional注解是Spring框架中用于管理事务的注解,它可以应用于类或方法上。使用该注解可以确保一个方法或类中的操作要么全部成功提交,要么全部回滚,从而保证数据的完整性和一致性。下面是Transactional注解的…

Gradio入门详细教程

常用的两款AI可视化交互应用比较: Gradio Gradio的优势在于易用性,代码结构相比Streamlit简单,只需简单定义输入和输出接口即可快速构建简单的交互页面,更轻松部署模型。适合场景相对简单,想要快速部署应用的开发者。便…

力扣二叉树--总结篇(2)

前言 总体回顾:11.18-12.14,中间有一个星期左右因为考试没有写题。37道题。 内容 这是第二阶段刷的题 从路径到构造二叉树,合并二叉树,再到二叉搜索树,公共祖先问题 看到二叉树,看到递归 都会想&#…

常见的Linux基本指令

目录 什么是Linux? Xshell如何远程控制云服务器 Xshell远程连接云服务器 Linux基本指令 用户管理指令 pwd指令 touch指令 mkdir指令 ls指令 cd指令 rm指令 man命令 cp指令 mv指令 cat指令 head指令 ​编辑 tail指令 ​编辑echo指令 find命令 gr…

【教程】源代码加密、防泄密软件

​ 什么是代码混淆? 代码混淆 是一种将应用程序二进制文件转换为功能上等价,但人类难于阅读和理解的行为。在编译 Dart 代码时,混淆会隐藏函数和类的名称,并用其他符号替代每个符号,从而使攻击者难以进行逆向工程。 …

认识产品经理以及Axure简单安装与入门

目录 一.认识产品经理 1.1.项目团队 1.2.概述 1.3.认识产品经理 1.4.产品经理工作范围 1.5.产品经理工作流程 1.6.产品经理的职责 1.7.产品经理的分类 1.8.产品经理能力要求 1.9.产品工具 1.10.产品体验报告 二.Axure简介 三.应用场景 四.安装与汉化 4.1.安装 4…

认知觉醒(七)

认知觉醒(七) 第三章 元认知——人类的终极能能力 第一节 元认知:成长慢,是因为你不会“飞” 1946年10月24日,一群科学家为了研究太阳的紫外线,在美国新墨西哥州白沙导弹试验场发射了当时世界上最先进的V2液体火箭&#xff0…

mysql 数据库 关于库的基本操作

库的操作 如果想到 mysql 客户端当中数据 系统当中的命令的话,直接输入的话,会被认为是 mysql 当中的命令。 所以,在mysql 当中执行系统当中的命令的话,要在系统命令之前带上 ststem ,表示系统命令: 但是…

代码随想录二刷 | 二叉树 | 110.平衡二叉树

代码随想录二刷 | 二叉树 | 110.平衡二叉树 题目描述解题思路递归迭代 代码实现递归法迭代法 题目描述 110.平衡二叉树 给定一个二叉树,判断它是否是高度平衡的二叉树。 本题中,一棵高度平衡二叉树定义为: 一个二叉…

奥比中光 Femto Bolt相机ROS配置

作者: Herman Ye Auromix 测试环境: Ubuntu20.04/22.04 、ROS1 Noetic/ROS2 Humble、X86 PC/Jetson Orin、Kinect DK/Femto Bolt 更新日期: 2023/12/12 注1: Auromix 是一个机器人爱好者开源组织。 注2: 由于笔者水平有…

FL Studio水果软件最新版本号V21.0.3.3517内置中文补丁,可以切换成中文界面。

FL Studio 21.0.3.3517 Producer Edition 全称Fruity Loops Studio 21 Producer Edition ,就是大家熟悉的水果编曲软件,一个全能的音乐制作软件,包括编曲、录音、剪辑和混音等诸多功能,让你的电脑编程一个全能的录音室。FL Studio…

关于响应式布局,你需要了解的知识点

什么是响应式布局? 响应式布局,就是根据不同设备展示不同的布局,以免更方便用户浏览页面。 举个很简单的例子,我们在电脑上浏览网页,屏幕非常大,这时候可能采用的是如下图所示的布局方式。这种布局方式很宽…

C++类和对象(3)

目录 再谈构造函数 构造函数体赋值 初始化列表 【注意】 explicit关键字 Static成员 概念 特性 友元 友元函数 友元类 内部类 概念 特性: 匿名对象 拷贝对象时的一些编译器优化 再谈构造函数 构造函数体赋值 在创建对象时,编译…

后端打印不了trace等级的日志?-SpringBoot日志打印-Slf4j

在调用log变量的方法来输出日志时,有以上5个级别对应的方法,从不太重要,到非常重要 调用不同的方法,就会输出不同级别的日志。 trace:跟踪信息debug:调试信息info:一般信息warn:警告…

炒股怎么做杠杆?安全正规的融资融券了解一下!

加杠杆炒股是指放大投资资金进行股票交易,比如自有资金100万,向证券公司融资100万,那么投资者炒股的本金就有200万。当股市行情好的时候可以放大我们的收益! 目前我国股票加杠杆通过融资融券来实现,这个是唯一安全正规…

网络协议 - DNS 相关详解

网络协议 - DNS 相关详解 DNS简介域名层级结构域名服务器 DNS 解析流程为什么DNS通常基于UDP DNS 查询dig 查询host查询nslookup查询whois查询在线工具查询 DNS 调度原理地理位置调度不准确规则变更生效时间不确定高可用 DNS 安全相关什么是DNS劫持什么是DNS污染为什么要DNS流量…

电源适配器老化测试方法分享 电源测试系统助力老化测试

电源适配器老化测试是指对适配器进行高负荷、长时间的运行测试,从而评估电源适配器的性能、稳定性和可靠性。通过老化测试可以检测电源适配器长时间的使用情况,从而指导适配器的设计和研发,提高电源适配器的质量。由于老化测试要求长时间运行…

innovus:ccopt_design流程

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 ccopt完整的流程包括如下几个步骤: spec文件可以只创建一次,无需多次创建。 1)clustering阶段 set_ccopt_property balance_mode cluster …

camunda流程引擎——Java集成Camunda(上)(笔记)

目录 一、以一个处理流程开始1.1 后端1.2 前端1.3 执行 二、Camunda的补充2.1 使用方式2.2 可视化平台的Cockpit2.3 流程相关数据2.4 表介绍2.5 前端集成Modeler 三、用Java集成Camunda3.1 集成配置3.2 自动部署3.2.1 修改process.xml位置3.2.2 多进程引擎配置与多租户 3.3 历史…