谷歌 I/O 2024大会全面硬钢OpenAI;腾讯宣布旗下的混元文生图大模型;阿里巴巴技术下的AI自动视频剪辑工具

✨ 1: 谷歌 I/O 2024

谷歌 I/O 2024 发布了众多新技术,包括 Gemini AI、大语言模型和通用 AI 智能体等,全面颠覆搜索体验。

在这里插入图片描述

谷歌 I/O 2024发布会带来许多令人兴奋的新功能和技术创新:

  1. Gemini 1.5 Pro:一个极其强大的语言模型,具备多模态支持和超长上下文(长达200万token)。它可以处理视频、音频和大量文本,让用户能方便地进行各种复杂任务,如总结会议要点、处理电子邮件等。

  2. Project Astra:一个多功能的通用AI智能体,具备视觉识别和语音交互功能,不仅能识别并分析环境,还能执行各种任务,比如帮助用户填写退货单、找城市服务等。

  3. 搜索重塑:在Gemini加持下,谷歌搜索发生了重大变化,可以提供个性化的AI总结和多步骤推理功能,让用户查询信息更加高效。

  4. Veo:一个新的视频生成模型,可以生成高质量、长达1分多钟的1080p视频,为创作者提供更多的创作空间。

  5. AI媒体工具:包括生成图像的Imagen 3、音乐创作的Music AI Sandbox等,帮助用户更好地进行跨媒体创作。

  6. Astra项目和AR眼镜:结合AR和AI技术,为用户提供更为自然和高效的交互体验。

  7. Gemini App和Gemini Advanced:提供个性化的AI助理和专家服务,让用户能够高效处理日常事务和专项需求。

  8. Ask Photos:一个新的功能,可以帮助用户更快地找到和处理大量照片中的特定信息。

  9. TPU第六代Trillium:提供强大的硬件支持,大幅提升性能和效率,为AI的训练和运行提供保障。

和昨天的OpenAI的发布会进行对比,你觉得如何?各有各的优势,谷歌的优势在于技术能力还很强,而且基本盘很稳,比如把AI加到搜索,手机等,这是OpenAI没办法做到的,
而OpenAI的技术和创新力可以算行内第一,可以很快的做出许多新颖的产品。这波你怎么看?

地址:https://io.google/2024/intl/zh/

✨ 2: Hunyuan-DiT

具备中英双语理解和多轮对话能力的多分辨率扩散式文本生成图像模型

在这里插入图片描述

腾讯宣布旗下的混元文生图大模型升级并对外开源Hunyuan-DiT,Hunyuan-DiT是一款多分辨率扩散Transformer 模型,专门用于中文和英文文本到图像的生成。它可以从输入的文本描述生成高质量的图像,并能够处理多轮对话的文生图任务(即根据用户的多个连续输入生成图像)。

国内互联网BAT巨头,就只有B没有开源了,哦,B在国内可能是2家公司。

地址:https://github.com/Tencent/HunyuanDiT

✨ 3: FunClip

基于阿里语音库的开源、精准、适用于本地部署的视频剪辑工具。

在这里插入图片描述

FunClip

FunClip 是一款开源、精准、方便的视频剪辑工具。它主要通过语音识别技术来帮助用户剪辑视频,并且用户可以轻松选择视频中的某些片段或说话人进行裁剪。FunClip集成了阿里巴巴通义实验室的 FunASR Paraformer 系列模型,能够准确地识别视频中的语音内容,生成时间戳,使得视频剪辑更加方便。

通过FunClip,用户无需了解复杂的视频编辑技术,即可实现精准、快捷的视频剪辑,非常适合需要频繁处理视频内容的工作场景。

地址:https://github.com/alibaba-damo-academy/FunClip

✨ 4: LLaVA-NeXT

一个强大的多模态大语言模型,支持图像和视频任务的零样本推理

在这里插入图片描述

LLaVA-NeXT 是一种开源的大型多模态模型,旨在提供强大的图像和视频理解能力。对于希望在实际应用中利用大型多模态模型的开发者和研究人员来说,LLaVA-NeXT 是一个非常有吸引力的选择。

地址:https://github.com/LLaVA-VL/LLaVA-NeXT

✨ 5: Devon

更高效地编程和管理代码库

在这里插入图片描述

Devon是一个开源的编程助手,旨在帮助开发者更高效地编程和管理代码库。使用Devon可以在很多情况下帮助你,比如当你需要编写代码、探索代码库、编写配置文件、编写测试、修复BUG或者探索软件架构的时候。Devon能够编辑多个文件,从而在整个代码库中提供帮助。然而,它主要针对Python语言,对于非Python语言的支持则有限。

无论你是在寻找帮助编写代码、优化你的工作流程还是想要加入一个开源项目并为之贡献力量,Devon都可能是一个值得尝试的工具。

在这里插入图片描述

地址:https://github.com/entropy-research/Devon



更多AI工具,参考国内AiBard123,Github-AiBard123

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/628043.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

消息队列选型

一、要解决的问题 1.1 异步 分析: 需要根据场景来判断。若整体链路的逻辑中,某些逻辑是不需要强实时的,滞后一段时间是允许的,同时又不会对用户带来不好的体验,那么可以使用MQ完成异步操作。 例如:秒杀场…

x264 帧类型代价计算原理:slicetype_frame_cost 函数分析

slicetype_frame_cost 函数 函数功能 这个函数的核心是计算编码一系列帧(从 p0 到p1,以 b 为当前帧)的代价 cost,并根据这个代价 cost来辅助帧类型决策。它考虑了运动搜索的结果、帧间和帧内预测的成本,并且可以并行处理以提高效率。该函数在帧类型决策、MBtree 分析、场…

消防物资存储|基于SSM+vue的消防物资存储系统的设计与实现(源码+数据库+文档)

消防物资存储系统 目录 基于SSM+vue的消防物资存储系统的设计与实现 一、前言 二、系统设计 三、系统功能设计 1用户功能模块 2 管理员功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介…

天锐绿盾 | 如何防止电脑内文件遭到泄露?

天锐绿盾是一款专为企业设计的数据防泄漏软件系统,它通过一系列综合性的安全措施来有效防止电脑内文件遭到泄露。 PC地址: https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee 以下是天锐绿盾防止文件泄露的主要功能和方法&a…

酒店刷脸设备遭批量扔进「垃圾桶」,为啥所有人都叫好……

最近,不知道柴油们有没有关注到这么一个热点,就是大量酒店曾经动辄几千上万买来的刷脸设备,大批量的被挂在二手平台1折甩卖了…… 昔日花大几千,甚至上万买来的设备,如今年低至三四百?打折打到脚底板&#…

8.2 GOOGLE(SAML应用)登录联携AWS用户池(Amazon Cognito)

GOOGLE(SAML应用)登录联携AWS用户池(Amazon Cognito) 目录一、参考资料二、创建和配置AWS用户池1. 创建用户池2. 在用户池中创建联合身份提供商3. 在用户池中创建应用程序集成 三、创建和配置GOOGLE SAML应用1. 创建GOOGLE SAML应…

nodemon运行ts文件

https://juejin.cn/post/7035637086451400734 nodemon经常用来调试js文件,大家都是知道的,但是用nodemon来调试ts文件,大家试过吗? 如果直接运行nodemon index.ts是会报错的。 ts 复制代码 //index.ts console.log(1) 需要全局…

Find My OBD|苹果Find My技术与OBD结合,智能防丢,全球定位

OBD是英文On-Board Diagnostics的缩写,中文翻译为“车载自动诊断系统”。这个系统将从发动机的运行状况随时监控汽车是否尾气超标,一旦超标,会马上发出警示。当系统出现故障时,故障(MIL)灯或检查发动机(Check Engine)警告灯亮&…

JAVA面试库

1、基础 1.1、面向对象编程有哪些特性 1、抽象 抽象就是对同一个目标的共有的属性、特征、方法、功能、行为等进行抽取并归纳总结,它是一种将复杂现实简单化为模型的过程,它关注的是对象行为,而不用关注具体的实现细节。 在面向对象编程中…

【千帆AppBuidler】零代码构建AI人工智能应用,全网都在喊话歌手谁能应战,一键AI制作歌手信息查询应用

欢迎来到《小5讲堂》 这是《千帆平台》系列文章,每篇文章将以博主理解的角度展开讲解。 温馨提示:博主能力有限,理解水平有限,若有不对之处望指正! 目录 背景创建应用平台地址随机生成快速创建应用头像应用名称应用描述…

S32K3的中断向量表

S32K312的中断向量表所在文件名称是S32K312_COMMON.h 中断向量内容是&#xff1a; /*!* addtogroup Interrupt_vector_numbers Interrupt vector numbers* {*//** Interrupt Number Definitions */ #define NUMBER_OF_INT_VECTORS 229 /**< Number of inte…

knife4j在线文档 测试框架

一、Knife4j介绍&#xff1a; 1.1.介绍&#xff1a; Knife4j是基于SpringBoot构建的一个文档生成工具&#xff0c;它可以让开发者为我们的应用生成在线API文档&#xff1b; 目的是可以更加方便的基于API文档进行测试。 生成的文档还可以导出&#xff0c;然后给到前端开发团队…

pyenv 之 python 多版本管理(win11)

1. 背景 常常会用到Python的多个版本&#xff0c;因此可以使用Pyenv来对Python版本进行管理。 2. win11下载 pyenv 在终端执行下载语句&#xff1a; pip install pyenv-win --target D:\software\pyenv 其中 D:\software\pyenv 为你想要下载到的文件目录&#xff0c;建议在 …

党务政务服务热线|基于SSM的党务政务服务热线平台(源码+数据库+文档)

目录 基于SprinBootvue的党务政务服务热线平台 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2后台功能模块 5.2.1管理员功能模块 5.2.2部门功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; …

CSRF 攻击实验:更改请求方式绕过验证

前言 CSRF&#xff08;Cross-Site Request Forgery&#xff09;&#xff0c;也称为XSRF&#xff0c;是一种安全漏洞&#xff0c;攻击者通过欺骗用户在受信任网站上执行非自愿的操作&#xff0c;以实现未经授权的请求。 CSRF攻击利用了网站对用户提交的请求缺乏充分验证和防范…

抖音剪辑音乐配乐音效合集,短视频制作分类配乐库素材

一、素材描述 这是一套短视频剪辑配乐库&#xff0c;包含大气震撼、儿童幽默、片头片尾、科技未来、惊险悬念、婚礼婚庆、各种各样、轻松明朗、民族风格、叙事抒情等配乐分类&#xff0c;基本上是应有尽有了。本套配乐库素材&#xff0c;大小18.18G&#xff0c;5个分卷压缩文件…

Git使用(3):版本管理

一、查看历史 编写一个java类进行测试 选择Git -> Show Git Log查看日志。 第一次修改推送到远程仓库了&#xff0c;所以有origin&#xff08;远程仓库地址&#xff09;&#xff0c;第二次修改只提交到本地仓库所以没有。 二、版本回退 1、本地回退 在要回退的版本上右键&a…

使用Flask-SocketIO构建实时Web应用

文章目录 准备工作编写代码编写HTML模板运行应用 随着互联网的发展&#xff0c;实时性成为了许多Web应用的重要需求之一。传统的HTTP协议虽然可以实现实时通信&#xff0c;但是其长轮询等机制效率低下&#xff0c;无法满足高并发、低延迟的需求。为了解决这一问题&#xff0c;诞…

计算机网络实验2:路由器常用协议配置

实验目的和要求 掌握路由器基本配置原理理解路由器路由算法原理理解路由器路由配置方法实验项目内容 路由器的基本配置 路由器单臂路由配置 路由器静态路由配置 路由器RIP动态路由配置 路由器OSPF动态路由配置实验环境 1. 硬件&#xff1a;PC机&#xff1b; 2. 软…

3588 pwm android12 的操作,包含 NDK native C++

问题&#xff1a; 客户需要在android12 的界面上操作板卡上的 PWM 蜂鸣器设备。 过程&#xff1a; 1 了解一下 3588 android12 源码的 关于PWM 的驱动。 设备树找不到 pwm 但是&#xff0c; 还不知道&#xff0c;android12 最终包含的 设备树是哪个&#xff0c;但是经过我的…