音视频技术开发周刊 | 308

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

4eef0191fdb3cce6f132922568998887.png

OpenAI首席科学家最新访谈:对模型创业两点建议、安全与对齐、Transformer够好吗?

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题:对深度学习的信仰、对AGI的畅想,Transformer够不够好,让人震惊的涌现能力,安全和对齐,以及对模型创业者的两点建议。

OpenAI突发更新!GPT-3.5正式开放「微调」,人人可打造专属ChatGPT|附最全官方指南

OpenAI正式开放GPT-3.5微调API,GPT-4版本也即将推出。这意味着,继插件「APP Store」大爆发后,所有人皆可以打造个性化的专属「类ChatGPT应用」。

AI机器识别突破登Nature封面,加速第四次工业革命,论文一作为浙大校友

HADAR技术攻克了机器夜间识别的难题,加速第四次工业革命!一夜之间,机器夜间识别的难题就被攻克了!一篇AI与热物理学结合帮助机器在夜间成像的文章登上了Nature的封面。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

知识无法完全编入模型参数,学会搜索也是AI的必备技能!在大型语言模型(LLM)的加持下,与视觉结合的多模态任务,如图像描述、视觉问答(VQA)和开放词汇目标识别(open-vocabulary object detection)等都取得了重大进展。

AI2发布全新的大语言模型预训练数据集:包含3万亿tokens的大规模文本数据集AI2 Dolma,开源免费商用数据集~

Allen Institute for AI简称AI2,是2014年成立的一个非营利性研究组织,其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目,希望借助AI来推动科学、医学等领域的进步。

4131fdc64698f65c7f05089b3736a43b.png

用ChatGPT方式开发游戏:文本直接生成小游戏,StoryGames.AI来了!

知名无代码游戏开发平台buildbox正式发布,集成生成式AI的游戏开发平台StoryGames.AI。用户只需文本提示,5分钟左右就能生成一个10章节的视频小游戏。

AIGC已改变新闻业

AI技术的产生,为内容创作开拓了新的可能性,VR新闻、虚拟主播等新形态的内容形式接连产生,为内容表达提供了更为广阔的空间。

15B模型单项能力锤得过GPT3.5,开源SQLCoder已上岗

你知道的有关于代码编辑的大模型工具有哪些呢?推特用户 制作了下面这张图,为大家梳理代码大家庭的大部分成员。就在他发布了这张图后的两周内,又有三位新成员加入了这个大家庭,它们分别是 DeciCoder、OctoCoder 以及最新的成员 SQLCoder。

人工智能困境:如何安全、合乎道德地实施生成式人工智能工具

人工智能正以各种方式使用,从聊天机器人和虚拟助手到自动驾驶汽车,97%的企业主认为ChatGPT将有助于他们的业务。但对于任何新技术,人们都会担心安全和道德——人工智能也不例外。

https://www.cncf.io/blog/2023/08/21/an-ai-dilemma-how-to-implement-generative-ai-tools-safely-and-ethically/

d19cdf155f5f558b2f4d4f5194c3da11.png

两大科技巨头加持,它要做AR市场中的“英特尔”

Lumus 在 AR 眼镜光学行业深耕 23 年,现已准备好实现突破。到 2025 年,两大科技巨头将在其眼镜中采用 Lumus 的光学技术,以实现轻薄形态的一体式 AR 眼镜。

Meta AR/VR专利提出通过液晶偏振全息LCPH实现眼动追踪

对于眼动追踪,与将光源定位在用户视场的外围相比,视场内照明可以提供更高的追踪精度。例如,当光源位于用户的视场范围内时,捕获到眼睛所有注视角度的角膜闪烁的可能性更高。另外,在用户的视场内定位光源可以在光源的放置和分布方面提供更大的灵活性,从而使摄像头捕获的光量最大化,并降低光源输出光的强度和光源的功耗。

Quest开发者分享:通过MR功能提高用户下载率和留存率

Meta日前发布了《MR Developer Success Spotlight》,并介绍了《Cubism》和《TRIPP》通过整合Presence Platform的混合现实功能来提高用户下载率和留存率的成功案例。

998a5f7f5dc1e1b16950e32828ed2ddd.png

环视相机自标定(基于hough的车道线检测篇)

AVM环视系统自标定算法分为两个部分:1. 车道线检测 2. 相机外参自标定。其中相机外参自标定涉及到的原理和公式推导在Around View Camera Self Calibration一篇中已经详细介绍。这篇帖的主要内容是基于hough变换的传统车道线检测方法,包含基础的图像处理算法原理,以及调参的trick和策略。

超越传统驾驶模拟:地图先验引领MapNeRF技术

模拟摄像头传感器是自动驾驶中的一项关键任务。尽管神经辐射场在驾驶模拟中合成真实感视图方面表现出色,但它们仍然无法生成外推视图。本文提出将地图先验纳入神经辐射场中,以合成具有语义道路一致性的轨迹外驾驶视图。关键的想法是可以利用地图信息作为先验来指导具有不确定性的辐射场的训练。

动态SLAM方向全方面梳理

动态SLAM是在动态环境中进行定位和建图的算法。传统的SLAM通常基于静态刚体场景假设,即环境中的所有物体都是固定不动的。然而在实际应用中这种假设并不成立。例如,环境中车辆和行人可能会移动。

0c9dd539df082092a738ae660ad98895.png

音视频学习--DTMF代码走读

本文以WebRTC中代码进行代码层面的解读,以便能够更好地理解DTMF。

最佳直播视频CDN

本文中,探索市场上最好和最流行的CDN,并深入研究支持CDN的视频流平台,以及为什么这些可能是最简单、最灵活和最具成本效益的选项。

https://www.wowza.com/blog/best-cdns-live-streaming

浅谈混响及一些去混响方法

在封闭的空间中,当声源产生的声音经过反射物(墙壁、地面和室内装饰物等)多次反射叠加后会形成混响,如图1所示。在均匀介质声场中,声源到传声器的直达声传播时间最短,人们将在直达声之后 50-100 ms内被传声器接收到的反射声定义为早期混响,在直达声50-100 ms之后被传声器接收到的反射声定义为晚期混响。

80e352f9c9401d2d687f5f19f827b782.png

腾讯云V265/TXAV1直播场景下的编码优化和应用

随着视频直播不断向着超高清、低延时、高码率的方向发展, Apple Vision的出现又进一步拓展了对3D, 8K 120FPS的视频编码需求,视频的编码优化也变得越来越具有挑战性。LiveVideoStackCon 2023上海站邀请到腾讯云的姜骜杰老师分享腾讯云V265/TXAV1直播场景下的编码优化和应用,带领我们探索音视频技术的无限可能性。

华为云渲染实践

云计算与网络基础设施发展为云端渲染提供了更好的发展机会,华为云随之长期在自研图形渲染引擎、工业领域渲染和AI加速渲染三大方向进行云渲染方面的探索与研究。本次LiveVideoStackCon 2023上海站邀请了来自华为云的陈普,为大家分享云渲染在垂直场景的一些应用。

基于人眼感知质量的端云结合画质及带宽优化实践

随着小红书视频业务和短视频播放的规模化增长,如何有效地提升用户体验质量同时降低视频带宽成本成为一个重要的技术优化目标。LiveVideoStackCon 2023 上海站邀请到小红书的剑寒为大家分享小红书音视频架构算法团队开发的基于人眼感知质量的端云结合超分框架和画质及带宽优化相关实践。

WebRTC对OBS的鞭策

OBS版本30通过WHIP正式支持WebRTC。WebRTC HTTP摄取协议(WHIP)是一种针对实时流媒体应用而设计的新协议。WebRTC不包括标准的信号机制,因此不能像使用RTMP一样将随机客户端连接到给定的服务。截至上周,OBS 30 Beta已经可用。多年来,通过分支使用WebRTC和OBS已经成为可能,但现在终于正式发布了。

https://webrtchacks.com/webrtc-cracks-the-whip-on-obs/

27bac9f53331bfa76416747fd8cef1cb.png

如果大模型不可靠,那钉钉的解药是什么

最近两周,钉钉异常活跃,看点频频。从成为阿里集团独立业务的消息开始,到发布个人版,8 月 22 日钉钉又宣布推出 AI PaaS 及其最新的 AI 应用——数字员工。

晚点独家丨小红书电商全面加速:成立一级部门后,明确投入方向

《晚点 LatePost》独家获悉,小红书整合了电商业务与直播业务,组建了全新的交易部,成为与社区部、商业部平行的一级部门。此前,电商业务是归属于社区部之下的二级部门。

中美俄实验室同日复现常温超导晶体,美国超导股票盘前暴涨140%

中美俄的实验室同日复现出了LK-99超导晶体,美国超导股票AMSC盘前跳涨71%,最高涨幅150%.

1000亿GMV下,在抖音做团购的商家

据《晚点 LatePost》报道,抖音生活服务上半年的支付交易总额超过了1000亿元。而在去年,抖音生活服务的全年交易额接近900亿元,来势汹汹的抖音,用半年时间就超过了去年一年的成绩。

b2c406fb07d09c050ae7e0d3e888b2dc.png

沉浸新视界·「听」你所想,「见」所欲见

作为深耕线下的技术大会,我们坚信“百闻不如一见”。深圳站八折购票火热进行中,限时优惠截止至9月3日!同时,我们为在校学生争取了六折购票的特别福利(购买学生票,请联系小秘书,微信号:LVSgogo)。准备好了吗?和诸多资深的音视频技术者一起,去见未来。

c4d9d7005617bef190c81254d2faae55.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。

e392d6e7376d706554e01d484454a414.png

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/99724.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据到底是好是坏?_光点科技

近年来,随着科技的不断发展和互联网的普及,大数据已经成为一个备受关注的话题。它带来了许多机遇和挑战,引发了人们对于其是好是坏的争议。大数据究竟是一把双刃剑,需要我们从多个角度来审视。 大数据的好处无疑是显而易见的。首先…

java入坑之网络编程

一、 网络基础知识 1.1网卡 1.2IP地址 1.3端口 1.4保留IP 1.5网络协议 二、UDP 编程 2.1相关概念 计算机通讯:数据从一个IP的port出发(发送方),运输到另外一个IP的port(接收方) UDP:无连接无…

详解I2C

I2C(也常写作 I I C IIC IIC, I 2 C I^2C I2C),全称为Inter-Integrated Circuit(“互连集成电路”),用于在集成电路之间进行短距离数据传输。它由Philips(现在的NXP半导体&#xff0…

DolphinDB 携手白鲸开源 WhaleStudio 打造高效敏捷的 DataOps 解决方案

浙江智臾科技有限公司(简称:DolphinDB)和北京白鲸开源科技有限公司(简称:白鲸开源)是在大数据技术领域活跃的两支专业团队。 DolphinDB 专注于为用户提供集高性能存储、复杂分析能力和流处理于一体的实时计…

Linux内核源码分析 (5)多处理器调度

Linux内核源码分析 (5)多处理器调度 文章目录 Linux内核源码分析 (5)多处理器调度注:本章节使用的内核版本为Linux 5.6.18一、 SMT和NUMA1、SMP (对称多处理器结构)2、NUMA (非一致内存访问结构) 二、多核调度三、调度域和调度组四、SMP调度详…

Power BI 连接 MySQL 数据库

Power Query 或 Power BI 只提供了对 SQL Server 的直接连接,而不支持其它数据库的直连。所以第一次连接 MySQL 数据库时,就出现下面的错误信。 这就需要我们自己去安装一个连接器组件。https://downloads.mysql.com/archives/c-net/ 错误解决方案 我一…

MySQL 8 数据清洗总结

MySQL 8 数据清洗三要素: 库表拷贝和数据备份数据清洗SQL数据清洗必杀技-存储过程 前提:数据库关联库表初始化和基础数据初始化: -- usc.t_project definitionCREATE TABLE t_project (id varchar(64) NOT NULL COMMENT 主键,tid varchar(…

Spring MVC 五 - Spring MVC的配置和DispatcherServlet初始化过程

今天的内容是SpringMVC的初始化过程,其实也就是DispatcherServilet的初始化过程。 Special Bean Types DispatcherServlet委托如下一些特殊的bean来处理请求、并渲染正确的返回。这些特殊的bean是Spring MVC框架管理的bean、按照Spring框架的约定处理相关请求&…

rtsp 拉流 gb28181 收流 经AI 算法 再生成 rtsp server (一)

1、 rtsp 工具 1 vlc 必备工具 2 wireshark 必备工具 3 自己制作的工具 player 使用tcp 拉流,不自己写的话,使用ffmpeg 去写一个播放器就行 4 live555 编译好live555, 将live555的参数修改以下,主要是缓存大小 文章使用c 来写一…

JavaScript Web APIs-01学习

复习: splice() 方法用于添加或删除数组中的元素。 **注意:**这种方法会改变原始数组。 删除数组: splice(起始位置, 删除的个数) 比如:1 let arr [red, green, blue] arr.splice(1,1) // 删除green元素 consol…

LinkedHashMap实现LRU缓存cache机制,Kotlin

LinkedHashMap实现LRU缓存cache机制,Kotlin LinkedHashMap的accessOrdertrue后,访问LinkedHashMap里面存储的元素,LinkedHashMap就会把该元素移动到最尾部。利用这一点,可以设置一个缓存的上限值,当存入的缓存数理超过…

取一个整数各偶数位上的数构成一个新的数字

1 题目 我可太难了,这题我的思路有点复杂,遇到的困难很多,总是值传递搞不清楚,地址传递总是写错。 从低位开始取出一个整数s的各奇数位上的数,剩下的偶数位的数依次构成一个新数t。 例如: 输入s&#xff…

vue自定义键盘

<template><div class"mark" click"isOver"></div><div class"mycar"><div class"mycar_list"><div class"mycar_list_con"><p class"mycar_list_p">车牌号</p>…

浪潮云海护航省联社金融上云,“一云多芯”赋能数字农业

农村金融是现代金融体系的重要组成部分&#xff0c;是农业农村发展的重要支撑力量&#xff0c;而统管全省农商行及农信社的省级农村信用社联合社&#xff08;以下简称&#xff1a;省联社&#xff09;在我国金融系统中占据着举足轻重的地位。省联社通常采用“大平台小法人”的发…

稳定性建设框架 | 京东物流技术团队

一、为什么要做稳定性建设 1、从熵增定律引出稳定性建设的必要性 物理学上&#xff0c;用“熵”来描述一个体系的混乱程度。卡尔弗里德曼提出熵增定律&#xff0c;他认为在一个封闭的系统内&#xff0c;如果没有外力的作用&#xff0c;一切物质都会从有序状态向无序状态发展。…

第一课:使用C++实现图片去水印

1.功能概述 实现图片去水印的方法有很多,下面提供一种基于OpenCV库的C++实现方法。主要思路是利用图像中不同水印区域之间的差异,进行区域提取、重构和合成,从而实现去除水印的效果。 2.具体实现 2.1.导入OpenCV库和头文件 #include <iostream> #include <o…

Vue2向Vue3过度Vuex核心概念getters

目录 1 核心概念 - getters1.定义getters2.使用getters2.1原始方式-$store2.2辅助函数 - mapGetters 2 使用小结 1 核心概念 - getters 除了state之外&#xff0c;有时我们还需要从state中筛选出符合条件的一些数据&#xff0c;这些数据是依赖state的&#xff0c;此时会用到get…

【Golang 接口自动化05】使用yml管理自动化用例

目录 YAML 基本语法 对象&#xff1a;键值对的集合(key:value) 数组&#xff1a;一组按顺序排列的值 字面量&#xff1a;单个的、不可再分的值&#xff08;数字、字符串、布尔值&#xff09; yml 格式的测试用例 定义yml文件 创建结构体 读取yml文件中的用例数据 调试…

unity pivot and center

一般采用pivot即默认的模式 选中物体的轴心 Center中心 选中多个物体&#xff0c;两咱情况下旋转的效果也不一样 围绕各自中心旋转 Center 围绕中心旋转

使用kafka还在依赖Zookeeper,kraft模式了解下

Kafka的Kraft模式 概述 ​ Kafka是一种高吞吐量的分布式发布订阅消息系统&#xff0c;它可以处理消费者在网站中的所有动作流数据。其核心组件包含Producer、Broker、Consumer&#xff0c;以及依赖的Zookeeper集群。其中Zookeeper集群是Kafka用来负责集群元数据的管理、控制器…