大模型日报-20240105

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

在这里插入图片描述
https://mp.weixin.qq.com/s/-KnewDBeCN7a1XPk22u9Pw
MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。此外,它还在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。

高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备

在这里插入图片描述
https://mp.weixin.qq.com/s/d9c0YirPTxw9_SpmulvYrQ

在虚拟现实、增强现实、游戏和人机交互等领域,经常需要让虚拟人物和屏幕外的玩家互动。这种互动是即时的,要求虚拟人物根据操作者的动作进行动态调整。有些互动还涉及物体,比如和和虚拟人物一起搬动一把椅子,这就需要特别关注操作者手部的精确动作。智能、可交互的虚拟人物的出现,将极大地提升人类玩家与虚拟人物的社交体验,带来全新的娱乐方式。在该研究中,作者专注于人与虚拟人的互动任务,特别是涉及物体的互动任务,提出了一项名为在线全身动作反应合成的新任务。新任务将基于人类的动作生成虚拟人的反应。以往的研究主要关注人与人的互动,不考虑任务中的物体,生成的身体反应也没有手部动作。此外,以往工作也没有将任务视为在线的推理,在实际情况中虚拟人根据实施情况对下一步进行预判。

面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

在这里插入图片描述
https://mp.weixin.qq.com/s/VrV3E_SKTbpjJBfFyirvhA
ChatGPT 的诞生,让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能(AGI)铺开了一条革命性的道路,并在知识库、人机交互、机器人等多个领域得到应用。然而,目前存在一个普遍的限制:由于资源受限,当前大多 LLM 主要是在较短的文本上进行预训练,导致它们在较长上下文方面的表现较差,而长上下文在现实世界的环境中是更加常见的。最近的一篇综述论文对此进行了全面的调研,作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。

## 年度总结 | 2023 AI+游戏大事记
在这里插入图片描述
https://mp.weixin.qq.com/s/mbPYMXbv89ciKz51GvFSpw
ChatGPT发布后,AI领域的产品和科技开始快速增长。上期我们梳理了2023年这一整年内,行业技术和工具的发展迭代。今天,让我们深入探究这一年中,AI如何为游戏行业带来新的视角和体验。

消息称英伟达正开发“Skinny Joe"AI GPU: 700W TDP,特供中国

在这里插入图片描述
https://www.ithome.com/0/743/070.htm
根据国外科技媒体 tweaktown 报道,英伟达正开发名为“Skinny Joe"的全新 AI GPU,预估为中国特供版本.其TDP 为 700W。根据曝光的参考 Dev_ID 列表,“Skinny Joe"仅次于新款 L20 AIGPU 和英伟达 (NVIDIA)GeForce RTX 4090 D 显卡。目前尚不清楚"Skinny Joe” AI GPU 的具体规格信息,不过预估可能是 H100 或者 H200 的“瘦身"版本。

Midjourney 计划未来几个月内发布 AI视频生成模型

在这里插入图片描述
https://decrypt.co/211583/midjourney-leaps-into-ai-video-creation

Midiourney 是一个流行的图像生成工具,因其高质量和在 Discord 服务器内运行而闻名。该公司周二宣布,他们计划在未来几个月内推出“文本转视频"模式。Midjourney 首席执行官 David Holz 在 Discord 对话上表示该公司将从一月份开始训练其视频模型,可能会在“几个月内"准备就绪。有关该模型的更多信息并未透露。

“LLMs和编程”:当今的大多数编程工作都是在以略有不同的形式重复相同的事情,如果你在写LLM也能写出的程序,不妨再多思考一下是不是应该未来还做这样的事情

在这里插入图片描述
http://antirez.com/news/140
antirez从一位程序员的角度出发,讨论了自从ChatGPT和本地运行的LLMs出现后,这些新技术如何加速编程能力,并减少在编程中不值得投入精力的方面。作者通过个人经验分享,强调了自己在使用LLMs编写高级Python代码方面的增长,以及在C语言编程中较少使用LLMs的原因。

“我很遗憾地说,但这是事实:当今的大多数编程工作都是在以略有不同的形式重复相同的事情。这并不需要高水平的推理能力。大型语言模型在这方面做得相当好,尽管它们仍然受到上下文最大大小的严重限制。这确实应该让程序员思考。编写这种程序真的值得吗?当然,你能拿到报酬,而且报酬相当丰厚,但如果一个LLM可以做其中的一部分工作,那么五年或十年后这可能不是最好的位置。”

OpenVoice:仅通过一小段参考说话者的音频来复制其声音,并能用多种语言生成语音

https://x.com/reach_vb/status/1742075640990322689?s=20
OpenVoice🎙️是一种新颖的声音克隆技术,能够仅通过一小段参考说话者的音频来复制其声音,并能用多种语言生成语音。它提供了对声音风格的细致控制,包括情感、口音、节奏、停顿和语调,同时还能模仿参考说话者的音色。该技术基于训练有素的基础文本到语音(VITS)模型和音色转换器,VITS在3万个音频样本上训练,而音色转换器则在30万个样本上训练,覆盖中文、日语和英语。欢迎在Hugging Face平台上尝试这一技术👇。

QuestionImprover Agent:通过提出更好的问题来提升我们的思维方式

在这里插入图片描述
https://x.com/sockcymbal/status/1742120465110610398?s=20
QuestionImprover Agent是一个创新的AI工具,目的是在信息过载的时代,通过提出更好的问题来提升我们的思维方式。这个工具在@AGIHouseSF举办的AI for Thought Hackathon上获得了第一名,由@JvNixon, @kylejohnmorris和@Conaw共同开发。它利用一种新颖的推理算法和基于图的动态推理节奏来丰富和深化用户提出的问题,从而解锁更多洞察层次。适用于各种领域的复杂探索,如跨学科研究、战略分析或个人内省。这个项目的更广泛目标是提高提问的艺术,促进更深刻的理解和更有意义的对话。

KwaiAgents

在这里插入图片描述
https://github.com/KwaiKEG/KwaiAgents
KwaiAgents 是快手快知团队开源的一整套Agent系列工具。论文中KAgentSys的轻量版系统,其保留了部分原系统的功能。与功能齐全的系统相比,KAgentSys-Lite(1)缺少部分工具;(2)缺乏记忆机制;(3)性能稍有降低;(4)不同的代码库,Lite版本基于开源项目如BabyAGI和Auto-GPT。尽管有这些变更,KAgentSys-Lite在众多开源Agent系统中仍具有较好的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/298275.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【激活函数】PReLU 激活函数

1、介绍 PReLU(Parametric Rectified Linear Unit)激活函数是ReLU(Rectified Linear Unit)激活函数的一种改进。它是由 He et al. 在 2015 年提出的,旨在解决ReLU激活函数的一些局限性。 # 定义 PReLU 激活函数 prelu…

从vue小白到高手,从一个内容管理网站开始实战开发第六天,登录功能后台功能设计--API项目中的登录实现(二),工厂模式创建数据库连接

一、回顾 在第五天的时候我们开始创建后台所以需项目,并创建项目所需要的相关实体类,具体内容没有掌握的小伙伴可以看点击下面的链接去学习。 从vue小白到高手,从一个内容管理网站开始实战开发第六天,登录功能后台功能设计--API项目中的登录实现(一)-CSDN博客文章浏览阅读…

记一次实战云渗透总结

点击星标,即时接收最新推文 云渗透思路 所谓的云渗透通常指SaaS或PaaS渗透,即将服务器端的某些服务搭建在云服务器上,源代码的开发、升级、维护等工作都由提供方进行。从原理上看,云渗透思路与传统渗透思路相差无几。站点必须由底…

竞赛练一练 第24期:NOC大赛每日一练,scratch题目刷题第3天,包含答案解析

023年NOC大赛创客智慧编程赛项图形化复赛模拟题一,包含答案解析 本次题目来源:NOC 大赛创客智慧编程赛项图形化复赛模拟题(一) 第一题: 制作一个生日贺卡小程序. 1.点击绿旗后蛋糕出现在 (0,-80) 的位置,大小为 100,造型为 cake-b2.当碰到鼠标指针时,将造型切换为 cak…

MyBatis 源码分析(四):反射模块

前言 上一篇我们了解了Mybatis解析器模块,MyBatis 源码分析(三):解析器模块 本篇我们来了解反射模块。相比 parsing 包来说,reflection 包的代码量大概是 2-3 倍。当然,不要慌,都是比较简单的代…

CAN通信的基本原理与实现方法

一. CAN协议概念 1.1 CAN 协议简介 CAN 是控制器局域网络 (Controller Area Network) 的简称,它是由研发和生产汽车电子产品著称的德国 BOSCH 公司开发的,并最终成为国际标准(ISO11519以及ISO11898),是国际上应用最广泛的现场总线之一。差异点如下&…

Linux系统安全及应用

目录 一、账号安全控制 1. 系统账号清理 1.1 将用户设置为无法登录 1.2 锁定用户 1.3 删除用户 1.4 锁定配置文件 2. 密码安全控制 2.1 设置密码规则 3. 命令历史 4. 切换用户 4.1 su和su - 4.2 限制使用su命令的用户 5. PAM安全认证 5.1 概述 5.2 pam相关…

通信触发流程

该示例方案主要介绍如何通过建立的Modbus或TCP通信来实现触发方案、协议解析、发送事件和以及响应配置等功能。 需求:使用Modbus通信触发指定流程运行。 搭建思路:在接收事件中使用协议组装,比较规则选择上升沿,当接收到的值从其…

JavaWeb——新闻管理系统(Jsp+Servlet)之jsp新闻查询

java-ee项目结构设计 1.dao:对数据库的访问,实现了增删改查 2.entity:定义了新闻、评论、用户三个实体,并设置对应实体的属性 3.filter:过滤器,设置字符编码都为utf8,防止乱码出现 4.service:业务逻辑处理 5.servlet:处…

软件测试|深入解析Docker Run命令:创建和启动容器的完全指南

简介 Docker是一种流行的容器化平台,用于构建、分发和运行应用程序。其中一个最基本且重要的Docker命令是docker run,用于创建和启动容器。本文将详细解析docker run命令的用途、参数和示例,帮助您全面掌握创建和启动容器的过程。 docker r…

前端面试题-nodejs

1.什么是nodejs,它与传统的网页服务器有什么不同? 是什么?nodejs是基于Chrome V8引擎的JavaScript运行环境,它可以使JavaScript代码在服务器上运行。 有什么不同?第一,nodejs采用事件驱动、非阻塞式I/O模型…

k8s的网络

k8s的网络 k8s中的通信模式: 1、pod内部之间容器与容器之间的通信 在同一个pod中的容器共享资源和网络,使用同一个网络命名空间,可以直接通信的 2、同一个node节点之内,不同pod之间的通信 每个pod都有一个全局的真实的ip地址…

日志高亮 | notepad

高亮显示日志 日志文件无法清晰看到关键问题所在? 看到一堆日志头疼?高亮日志可以清晰展示出日志的 ERROR级等各种等级的问题, 一下浏览出日志关键所在 tailspin 项目地址: https://githubfast.com/bensadeh/tailspin 使用Rust包管理器cargo安装 安装 - Cargo 手…

【ASP.NET Core 基础知识】--环境设置

一、简介 1.1 .NET Core SDK 概述 .NET Core SDK(Software Development Kit)是Microsoft推出的一个开源跨平台框架,用于开发和部署.NET应用程序。它是.NET Core平台的核心组件之一,为开发者提供了在多个操作系统上构建高性能、可…

《数字图像处理》 第11章 表示和描述 学习笔记附部分例子代码(c++opencv)

表示和描述 0. 前言1. 表示1.1 边界追踪1.2 链码1.3 使用最小周长多边形的多边形近似 2. 边界描绘子2.1 一些简单的描绘子![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/45dddc76217e4fde93a11e2631b2a71a.png#pic_center 500x)2.2 形状数2.3 傅里叶描绘子2.4 统计…

智慧地球(AI•Earth)社区成立一周年啦!独家福利与惊喜彩蛋等你来拿!

原文:智慧地球(AI•Earth)社区成立一周年啦! 智慧地球社区 一周年庆典🎊 独家福利🎁与惊喜彩蛋🎉等你来拿! 智慧地球(AI•Earth)社区自2023年1月11日建立以…

软件测试|Docker Kill/Pause/Unpause命令详细使用指南

简介 Docker是一种流行的容器化平台,提供了各种命令和功能来管理和操作容器。本文将详细介绍Docker中的三个重要命令:kill、pause和unpause。我们将深入了解它们的作用、用法和示例,帮助您更好地理解和使用这些命令。 什么是Docker Kill/Pa…

C++异常处理机制

文章目录 C语言传统的处理错误的方式C异常概念异常的使用自定义异常体系C标准库的异常体系异常的优缺点 正文开始前给大家推荐个网站,前些天发现了一个巨牛的 人工智能学习网站, 通俗易懂,风趣幽默,忍不住分享一下给大家。 点击…

Mysql为什么只能支持2000w左右的数据量?

首先说明一下: MySQL并没有硬性规定只能支持到2000万左右的数据量。 其实,MySQL能够处理的数据量远远超过这个数字。无论是开源社区版还是商业版, MySQL在适当的硬件和配置下,都能够支持非常大的数据集。 通常所说的“MySQL只能…

延迟加载:提升性能的隐形利器

引言 想象一下,你正在玩一款大型电子游戏。如果游戏在启动的时候就加载了所有的关卡、角色和道具,那玩家可能需要等待很长时间才能开始游戏,而且大部分内容可能在游戏的初期都不会被用到。显然,这样的做法既低效又耗时。 而延迟加…