音视频技术开发周刊 | 297

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

b266316d44629adf17084863ed1de0ab.png

Geenee AR为品牌商和零售商提供虚拟试穿应用

这意味着Geenee AR的虚拟试穿解决方案能够与品牌商现有的销售渠道无缝集成。

谁说苹果掉队了?WWDC上只字未提AI,却已低调入场大模型

尽管苹果没有在 WWDC 上谈论AI 大模型,但他们介绍了一些基于 AI 的新功能,如改进iPhone 的自动更正功能,当你按下空格键时,它可以完成一个单词或整个句子。该功能基于使用 Transformer 语言模型的 ML 程序,使自动更正比以往任何时候都更加准确,而 Transformer 是支持 ChatGPT 的重要技术之一。

d58fb5ab946a67262cfc73cc25799f95.png

用于开源项目的 ChatGPT 驱动的代码审查器机器人

ChatGPT可以审查代码了:作者利用开源的ChatGPT制作的代码审查机器人,可以进行代码审查,并提供有关代码质量、安全性和最佳实践方面的反馈。

https://www.cncf.io/blog/2023/06/06/a-chatgpt-powered-code-reviewer-bot-for-open-source-projects/ 

使用 SQuId 评估TTS模型

文章评估了TTS的系统表现。作者介绍了一种名为“ManyEars”的自动评估框架,该框架可以同时处理多个声学和语言特征,并使用机器学习算法来生成客观的质量评估指标。他们还提出了一种基于GAN(生成对抗网络)的数据增强方法,以帮助改善TTS模型的性能。 

https://ai.googleblog.com/2023/06/evaluating-speech-synthesis-in-many.html

视觉字幕:使用大语言模型通过动态视觉效果增强视频会议

本文介绍了一个新的视觉字幕生成模型,该模型使用大语言模型训练,自动生成对图像的描述。该模型在未来可能会被用于诸如辅助无障碍输入、图像搜索和自动图像描述等领域。

https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html、

 d864cedbb0a209ddfb848fcc235e000d.jpeg

高翔博士分享:单目SLAM在移动端应用的实现难点有哪些? 

华为手机的"超光谱摄像头"

英伟达发布Neuralangelo,借助神经网络将2D视频转换为更精细的3D结构

Neuralangelo可以生成雕塑的具有复杂细节和纹理的3D结构。然后,创意专业人士可以将这些3D对象导入设计应用程序,进一步编辑它们以用于艺术、视频游戏开发、机器人和工业数字孪生等应用。

f1cbaf841d2b88d53a230b2265853978.png

要能力、要稳定也要降本——百度多媒体技术回顾

多媒体技术生态进入到存量市场,客户既要又要还要成为常态。如何将能力、质量与稳定性、成本不断优化,就是各个多媒体技术平台的必修课。本文以百度智能视频云为例,纵览了其在RTC、边缘计算、视频编码等关键能力与用户体验和成本优化的经验。 

11188d4e86582ee145b7552709d3961d.png

如何正确选择恰当的传声器? 

音视频问题汇总--如何兼容实时音视频加密?

音频格式--PCM介绍

基于语音识别的弱监督联合学习

具体来说,该方法使用一个中央服务器来协调各个客户端的模型更新。服务器首先从未标记的数据中提取出尽可能多的信息,并将其与客户端提供的少量标记数据结合起来训练一个初始模型。然后将该模型下发给各个客户端,并根据客户端反馈的准确率和数据分布情况来调整模型参数。最终,所有客户端的模型会被合并,形成一个全局模型。

https://www.amazon.science/blog/federated-learning-with-weak-supervision-for-speech-recognition

b363b5e63cd9affa32bfea4c3c8b5ef2.png

深度视频预编码

本文提出了一个深度视频预编码框架,其核心预编码组件包括一个级联结构的降尺度神经网络,在视频编码期间、传输之前操作。

百度视频质量评测的实践之路

LiveVideoStackCon 2022北京站邀请来自百度的王伟老师为大家介绍百度视频质量评测的发展之路 。

 54e656424702875705d00ab63b5ed881.png

苹果封神头显Vision Pro竟暗藏「脑机接口」!苹果前员工疯狂揭秘读心操控

其实,这是苹果通过算法来监视你的眼睛行为,并实时重新设计UI,以创建更多这种预期的瞳孔反应,从而创建个人大脑的生物反馈。这就是通过眼睛实现的初级「脑机接口」。 

87f5e32e0fa383a57238a646124278a8.png

一文读懂苹果 Vision Pro:最好最贵的头显,重新定义下一代计算

与过去所有的 VR/AR 平台相比,Vision Pro 的出现开创了一个新的纪元。从人机交互,到硬件规格,再到操作系统、生态,以及数据隐私,苹果重新定义了头戴式设备的标准。

30b1e90ff14592e70e74fdb1a1992f6a.png

专访瑞声科技应用软件开发总监陆其明:当一名老兵决定重新上路

从互联网公司到智能终端解决方案公司,陆其明的这次转变可能难以被人理解。但经济大环境的影响和个人的技术困境还是让他义无反顾地走向一个未知的世界。正如黄仁勋日前所言,“撤退”对聪明人来说并不容易。然而,战略性的撤退、牺牲、决定放弃什么是成功非常关键的核心。 

7f9a80235f4c7fdbb1254a82e4257182.png

2023LiveVideoStackCon上海站已进入全价期

bf4cdd23563394b18c6251619c778b62.png

2023年SRT InterOp Plugfest亮点

在2023年的SRT InterOp Plugfest中,Haivision和YouTube合作展示了使用SRT技术进行视频传输的高互操作性。这证明了SRT协议在实现不同设备和平台之间高效视频传输方面的能力。通过这些展示,人们看到了各种开发人员如何利用SRT协议来使视频传输过程变得更加可靠和高效,并提供了与其他视频流媒体解决方案无法匹敌的优势。

https://www.haivision.com/blog/all/highlights-2023-srt-interop-plugfest-with-youtube/

强化学习驱动的低延迟视频传输

LiveVideoStackCon2022北京站邀请了来自北京邮电大学的周安福教授,为我们分享关于使用强化学习方法进行低延迟视频传输的相关研究成果 。

面向流媒体的确定时延传输:从QUIC出发,走向未来

LiveVideoStackCon2022北京站邀请了清华大学的马川为我们介绍QUIC协议的诞生、目前的拓展成果以及未来的发展方向 。

3652aad5e920a8c43489db4b4218b40a.png

流媒体应如何利用预测分析来提高留存率

预测分析的好处:了解用户的偏好、行为和需求,提供更个性化的内容和服务;通过对数据进行深入分析和建模(包括使用机器学习算法、数据挖掘工具和AI等技术)提高留存率,增加收入。

https://www.streamingmedia.com/Articles/Post/Blog/How-Streaming-Platforms-Can-Harness-Predictive-Analytics-for-Better-Retention-158980.aspx


8d487c9ae86c72f6f5c630be531e754a.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/27873.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

九种分布式ID解决方案

背景 在复杂的分布式系统中,往往需要对大量的数据进行唯一标识,比如在对一个订单表进行了分库分表操作,这时候数据库的自增ID显然不能作为某个订单的唯一标识。除此之外还有其他分布式场景对分布式ID的一些要求: 趋势递增&#…

java SSM 宿舍管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM 宿舍管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/…

JVM零基础到高级实战之内存区域分布与概述

JVM零基础到高级实战之内存区域分布与概述 JVM零基础到高级实战之内存区域分布与概述 文章目录 JVM零基础到高级实战之内存区域分布与概述前言Java语言为甚么优势巨大?总结 前言 JVM零基础到高级实战之内存区域分布与概述 Java语言为甚么优势巨大? 一处…

强大的工具:APISpace IP归属地查询API

引言 IP地址在互联网世界中扮演着重要的角色,对于许多应用程序和服务来说,了解IP地址的归属地信息可以提供有价值的洞察和功能。 在本文中,我们将介绍一种名为IP归属地-IPv4区县级 API 的强大工具,它提供了查询 IP 地址归属地信…

网内计算:可编程数据平面和技术特定应用综述

网内计算:可编程数据平面和技术特定应用综述 摘要——与云计算相比,边缘计算提供了更靠近终端设备的处理,降低了用户体验的延迟。最新的In-Network Computing范例采用可编程网络元素在数据达到边缘或云服务器之前计算,促进了常见…

《百年孤独》15句经典语录

句句都是人生真相,说透了所有人的孤独。 1、生命中曾经有过的所有灿烂,原来终究,都需要用寂寞来偿还。 2、过去都是假的,回忆是一条没有尽头的路。 这句话是最受读者欢迎的一句话,回忆就是一条没有尽头的路&#xf…

【嵌入式环境下linux内核及驱动学习笔记-(16)linux总线、设备、驱动模型之input框架】

目录 1、Linux内核输入子系统概念导入1.1 输入设备工作机制1.2 运行框架1.3 分层思想 2、驱动开发步骤2.1 在init()或probe()函数中2.2 在exit()或remove()函数中:2.3 上报事件2.4 input驱动要素导图2.5 input驱动的总…

LVS负载均衡群集部署——DR直接路由模式

这里写目录标题 一 、 LVS-DR 工作原理二、数据包流向分析三、LVS-DR 模式的特点四、ARP问题4.1 问题一:IP地址冲突4.2 问题二:第二次再有访问请求 五、部署LVS-DR集群5.1 配置Tomcat 多实例服务器5.2 配置web节点服务器配置web1节点服务器配置Nginx七层…

Flutter进阶篇-布局(Layout)原理

1、约束、尺寸、位置 overrideWidget build(BuildContext context) {return Scaffold(body: LayoutBuilder(builder: (context, constraints) {print("body约束:" constraints.toString());return Container(color: Colors.black,width: 300,height: 300,child: L…

MATLAB | 绘图复刻(九) | 泰勒图及组合泰勒图

有粉丝问我这个图咋画: 我一看,这不就泰勒图嘛,就fileexchange上搜了一下泰勒图绘制代码,但是有的代码比较新的版本运行要改很多地方,有的代码需要包含一些压缩包没并没有的别人写的函数,于是我干脆自己写了…

【MySQL 数据库】11、学习 MySQL 中的【锁】

目录 一、锁的概述与分类二、全局锁(全库数据备份)三、表级锁(1) 表锁(2) 元数据锁(Meta Data Lock)(3) 意向锁 四、行级锁(1) 行锁(2) 间隙锁&临键锁 一、锁的概述与分类 锁是计算机协调多个进程或线程并发访问某一资源的机…

国产Gauss 分布式数据库概述

一、前言 GaussDB 是华为2023年6月7日发布新一代分布式数据库,采用share-nothing架构,数据自动分片,通过GTM-Lite技术实现事务强一致,无中心节点性能瓶颈,是华为基于openGauss自主创新研发的一款分布式关系型数据库&am…

STM32CubeMX | 44 - 使用GPIO点亮单总线RGBLED

一、单总线RGBLED 1. 硬件连接 在DragonFly上有四个全彩灯相连: 其中RGB_LED连接到STM32的PB9引脚。 2. 单总线通信协议 单总线通信协议中,表示bit0和bit1的码型如下: 时序值如下: 驱动一个单总线RGBLED只需要传输24bit颜色数据即可(MSB,高位优先),格式如下(注意…

C++设计模式 - 创建型模式之工厂模式

文章目录 C设计模式 - 创建型模式之工厂模式接口和针对接口编程 1. 简单工厂模式适用场合UML代码示例 2. 工厂方法模式适用场合UML代码示例 3. 抽象工厂模式适用场合UML代码示例 总结 C设计模式 - 创建型模式之工厂模式 工厂模式属于创建型模式,大致可以分为三类&a…

力扣 209. 长度最小的子数组

一、题目描述 给定一个含有 n 个正整数的数组和一个正整数 target。 找出该数组中满足其和大于等于 target 的长度最小的连续子数组,并返回其长度。如果不存在符合条件的子数组,返回 0。 示例 1: 输入:target 7, nums [2,3,1…

Uni-app学习从0到1开发一个app——(3)简单小工程内容介绍

文章目录 工程文件 看看一个标准的hello微信小程序工程文件的组成和作用。 工程文件 可以参考官方教程:传送门 之前的文章有详细的开发环境介绍,传送门Uni-app学习从0到1开发一个app——(2)windowns环境搭配,这里我们先建一个简单的示例微信…

C++教程(06)——变量类型

C 变量类型 变量其实只不过是程序可操作的存储区的名称。C 中每个变量都有指定的类型,类型决定了变量存储的大小和布局,该范围内的值都可以存储在内存中,运算符可应用于变量上。 变量的名称可以由字母、数字和下划线字符组成。它必须以字母…

华为OD机试真题B卷 Java 实现【自守数】,附详细解题思路

一、题目描述 自守数是指一个数的平方的尾数等于该数自身的自然数。例如:252 625,762 5776,93762 87909376。 请求出n(包括n)以内的自守数的个数。 数据范围: 1≤n≤10000 二、输入描述 int型整数。 三、输出描述 n以内…

大话Stable-Diffusion-Webui-动手开发一个简单的stable-diffusion-webui(一)

文章目录 写在前面整体效果开发所需环境开发工具需要具备的知识Node安装更改npm包安装的目录设置npm镜像vscode安装创建vue项目代码编写项目先体验注意写在前面 stable-diffusion-webui(以下简称sd)项目通过FastAPI对外提供了一系列的api用于开发者二次开发或者集成到自己的…

005Mybatis返回值(ResultMap 一对多,多对多)

属性 id 应该总是指定一个或多个可以唯一标识结果的属性。 虽然,即使不指定这个属性,MyBatis 仍然可以工作,但是会产生严重的性能问题。 只需要指定可以唯一标识结果的最少属性。显然,你可以选择主键(复合主键也可以…