腾讯混元宣布大语言模型和3D模型正式开源

腾讯混元大模型正在加快开源步伐。

11月5日,腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。

本次开源是腾讯混元继文生图模型后持续开放的一大举措。其中,腾讯混元Large是目前开源领域参数规模最大、效果最好的MoE模型,而腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型。两个模型均属腾讯自研,在架构、算法、数据等方面有独特创新,填补了行业空白。目前,两个模型均已经在腾讯业务场景中落地应用,经过实践的检验,是面向实用场景的应用级大模型。

当天,腾讯云TI平台和高性能应用服务HAI也开放接入这两个模型,为模型的精调、API调用及私有化部署提供一站式服务。

坚持MoE架构,模型持续升级开放

腾讯混元Large模型总参数量 389B,激活参数量 52B ,上下文长度高达256K,公开测评结果显示,腾讯混元Large 在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。

腾讯混元Large 在各类测试集上得分领先现有主流开源模型

MoE(Mixture of Experts),即混合专家模型,是目前国内外主流的大模型结构。2024年年初,腾讯混元就宣布在国内率先采用MoE架构模型,总体性能比上一代Dense模型提升50%。此后,腾讯混元推出基于 MoE 架构的多模态理解大模型以及基础模型"混元turbo",在性能、效果、速度等多个领域表现优越,第三方测评居国内大模型第一。

在模型结构和训练策略方面,腾讯混元Large全面探索了MoE ScalingLaw,进行了MoE共享专家路由、回收路由等策略上的创新,并引入了专家特化的学习率适配训练策略,有效提升不同专家利用率和稳定性,带来模型效果的提升。

腾讯混元Large在Post-Train方面做了大量创新优化。面对SFT通用领域繁多,数学、代码高质量指令数据获取困难,业界广泛采用的离线DPO,强化策略效果上限不高,泛化性弱等挑战,腾讯混元Large模型分门别类提升数学、逻辑推理、代码等能力,另外在一阶段离线DPO的基础上引入了二阶段在线强化策略。

数据方面,腾讯混元Large构建了覆盖数十个类目,高质量、高多样性、大量级的中英文合成数据,显著提升模型效果,其中数学和代码效果提升超过10%。 针对长文领域测评数据集缺乏,方法不够客观等问题,腾讯混元Large还基于公开数据,构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴(PenguinScrolls),并将对外开放,助力大模型长文方向的技术研究。

腾讯混元Large模型专项提升的长文能力已经应用到腾讯AI助手腾讯元宝上,最大支持256K上下文,相当于一本《三国演义》的长度,可以一次性处理上传最多10个文档,并能够一次性解析多个微信公众号链接、网址,让腾讯元宝具备独有的深度解析能力。

工程平台方面,腾讯混元Large模型由腾讯自研,其训练和推理均基于腾讯Angel机器学习平台。其中,针对 MoE 模型通信效率问题,Angel训练加速框架AngelPTM实现了多项技术优化,性能是主流开源框架DeepSpeed的2.6倍;针对模型推理加速,腾讯Angel机器学习平台和腾讯云智能联合研发 AngelHCF-vLLM框架,在最大限度保障精度的条件下,可节省50%以上显存,相比于业界主流的框架BF16吞吐提升1倍以上。

腾讯混元Large 模型已同步上架腾讯云 TI平台。TI 平台具备实战型大模型精调工具链,提供灵活的大模型训练数据标注能力和开源的数据构建Pipeline,内置 Angel训练和推理加速能力,支持一键启动混元Large精调,帮助用户训练出真正满足业务需求的专属大模型,提升研发效率。

同时,腾讯混元大模型 PaaS平台开放支持包含混元 Large 模型在内的十余种混元API 服务调用,可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求。

业界首个同时支持文字、图像生成3D的开源大模型

腾讯混元3D生成大模型首批开源模型包含轻量版和标准版,轻量版仅需10s即可生成高质量3D资产,目前已在技术社区公开发布,包含模型权重、推理代码、模型算法等完整模型,可供开发者、研究者等各类用户免费使用。

腾讯混元Hunyuan3D-1.0 模型也已上架到腾讯云HAI,通过HAI上更高性价比的GPU算力、模型一键部署能力和可视化图形界面WebUI,有效降低模型开放和部署门槛。

此次腾讯混元开源的3D生成大模型 Hunyuan3D-1.0 ,解决了现有的3D生成模型在生成速度和泛化能力上存在不足的问题,可以帮助 3D 创作者和艺术家自动化生产 3D 资产。该模型具有强大泛化能力和可控性,可重建各类尺度物体,大到建筑,小到工具花草。经过定性、定量多个维度的评估,腾讯混元3D生成大模型的生成质量已达到开源模型的先进水平。

在两个公开的3D数据集 GSO 与 OmniObject3D 上,腾讯混元Hunyuan3D-1.0 效果优于主流开源模型,整体能力属于国际领先水平。从定性角度评估,Hunyuan3D-1.0 与行业领先的开源模型的 3D 生成效果表现对比也显示出较高水平,包括几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度。

应用上,3D生成相关技术已经开始应用于UGC 3D创作、商品素材合成、游戏3D资产生成等腾讯业务中。其中,腾讯地图基于腾讯混元3D大模型,发布了自定义3D导航车标功能,支持用户创作个性化的 3D 导航车标,相比传统的3D车标重建方案,速度提升了91%。此前,腾讯元宝 APP 也上线了”3D 角色梦工厂“玩法,支持个性化的 UGC 3D 人物生成。

随着自研大模型技术强大的和应用实践经验的丰富,开源已经成为腾讯混元大模型的一个战略选择,未来,腾讯混元也将继续带来更多模态、更多尺寸的开源模型,将更多经过腾讯业务场景打磨和检验的模型开源,促进大模型技术进步和行业生态繁荣。

附:腾讯混元Large访问地址

官网地址:腾讯混元

Github地址:

https://github.com/Tencent/Tencent-Hunyuan-Large

Hugging Face 地址:

https://huggingface.co/tencent/Tencent-Hunyuan-Large

附:腾讯3D模型访问地址

官网地址:https://3d.hunyuan.tencent.com/

Github 地址:https://github.com/Tencent/Hunyuan3D-1

Hugging Face 模型地址:https://huggingface.co/tencent/Hunyuan3D-1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/913183.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

力扣二叉树题解含思路(C++实现)

1.求二叉树的最近公共祖先: 原题链接:. - 力扣(LeetCode) 假设这题的p,q分别为7和8,而它们的最近公共祖先肯定是为3。 这题我们大致的思路为保存p,q的绝对路径,接着通过存储的绝对路…

K8S资源介绍之configmap

1 configmap介绍 是什么:是K8S内置的一种存储卷,数据存储在etcd数据库中 应用场景:主要是存储应用的配置,实现配置与应分离,可以实现类似配置配置中心的功能 由于镜像是只读的特性,如果想要修改需要重新…

数据结构与算法学习——背包问题总结

主要学习01背包和完全背包。 01 背包 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品只能用一次,求解将哪些物品装入背包里物品价值总和最大。 装满问题 二维: 一维: 组…

算法分析中的渐进符号

在算法分析中,渐进符号用于描述算法在输入规模趋于无穷大时的运行时间或空间增长速率。主要的渐进符号包括 O O O、 Ω \Omega Ω、 Θ \Theta Θ、 o o o 和 ω \omega ω。这些符号各自描述了不同的增长界限,本文给出详细的定义和区别。 渐进符号 1. 大 O O O 符号(B…

计算机毕业设计Python+大模型农产品价格预测 ARIMA自回归模型 农产品可视化 农产品爬虫 机器学习 深度学习 大数据毕业设计 Django Flask

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

sql专题 之 三大范式

文章目录 背景范式介绍第一范式:属性不可再分第二范式第三范式注意事项 为什么不遵循后续的范式数据库范式在实际应用中会遇到哪些挑战? 背景 数据库的范式(Normal Form)是一组规则,用于设计数据库表结构以 减少数据冗…

Linux下进程链接结构,命令行参数,环境变量

bash 是一种 shell。在 Linux 系统中,当我们在终端输入命令时,通常是在一个 shell 环境下进行的。如果这个 shell 是 bash,那么所有命令行执行的命令都是 bash 的子进程。 1.Linux下进程链接结构 进程链接补充知识: 所有进程都…

FPGA实现串口升级及MultiBoot(八)四样错误实例演示

本文目录索引 一个指令和三种方式二种位流和四样错误Golden位流工程Watchdog的原理1、打开自己使用的Vivado版本的TCL SHELL2、进入multiboot_address_table.tcl 文件所在目录3、运行 multiboot_address_table.tcl 文件4、按照需求输入参数启动地址确定MultiBoot位流工程验证ex…

信息安全工程师(84)UNIX/Linux操作系统安全分析与防护

前言 UNIX/Linux操作系统,尤其是Linux,以其开放性、稳定性和安全性在服务器、桌面、嵌入式设备和超级计算机中占据重要地位。然而,没有任何操作系统可以百分之百地保证安全,UNIX/Linux也不例外。 一、UNIX/Linux操作系统安全分析 …

day08(单片机)时钟系统+定时器+PWM

目录 时钟系统定时器PWM 时钟系统 时钟基本概念 时钟源 晶体振荡器(Crystal Oscillator) RC振荡器(Resistor-Capacitor Oscillator) ​​​​​​​STM32U5时钟源 HSI(High Speed Internal) HSE(High Speed External) LSI(Low Spe…

【JavaEE初阶 — 多线程】内存可见性问题 volatile

1. 内存可见性问题 内存可见性的概念 什么是内存可见性问题呢? 当一个线程对共享变量进行了修改,那么另外的线程都是立即可以看到修改后的最新值。在Java中,可以借助 synchronized、volatile 以及各种Lock 实现可见性。如果我们将变量声…

通用特效Shader

一、通用特效Shader介绍 1.1 什么是通用特效材质 Unity支持SRP Batcher后,使用UberShader的优势非常明显。所谓,UberShader,即一个超级Shader,覆盖一类功能,而不是多个分散的小Shader,比如一个通用特效Sh…

spark-本地模式的配置和简单使用

python环境的安装 在虚拟机中,只能安装一个python的版本,若想要安装别的版本,则需要卸载之前的版本——解决方式,安装Anaconda 通过百度网盘分享的文件:Anaconda3-2021.05-Linux-x86_64.sh 链接:https://…

分享三个python爬虫案例

一、爬取豆瓣电影排行榜Top250存储到Excel文件 近年来,Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程序,用于抓取豆瓣电影Top250的相关信息,并将其保存为Excel文件。 获取网页数据的函数,包括以…

PyQt5 详细安装与配置教程及使用

文章目录 Part1:安装 PyQt5Part2:配置 PyQt5 的依赖工具 QtDesigner 和 PyUICPart3:使用QtDesigner设计界面Part4:使用PyUIC将设计好的界面转换为.py文件Part5:通过代码显示ui界面 Part1:安装 PyQt5 需要安…

ssm079基于SSM框架云趣科技客户管理系统+jsp(论文+源码)_kaic

毕 业 设 计(论 文) 题目:客户管理系统设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本客户管理系统就是在这…

C语言 | Leetcode C语言题解之第556题下一个更大元素III

题目&#xff1a; 题解&#xff1a; int nextGreaterElement(int n){int x n, cnt 1;for (; x > 10 && x / 10 % 10 > x % 10; x / 10) {cnt;}x / 10;if (x 0) {return -1;}int targetDigit x % 10;int x2 n, cnt2 0;for (; x2 % 10 < targetDigit; x2…

华为大变革?仓颉编程语言会代替ArkTS吗?

在华为鸿蒙生态系统中&#xff0c;编程语言的选择一直是开发者关注的焦点。近期&#xff0c;华为推出了自研的通用编程语言——仓颉编程语言&#xff0c;这引发了关于仓颉是否会取代ArkTS的讨论。本文将从多个角度分析这两种语言的特点、应用场景及未来趋势&#xff0c;探讨仓颉…

Linux:基本开发工具

一&#xff1a;编辑器vim 1.1vim的基本概念 vim其实有多重模式&#xff0c;这里我们主要了解vim的三种模式&#xff0c;分别是命令模式&#xff08;command mode&#xff09;,插入模式(Insert mode)和底行模式(lst line mode) 正常/普通/命令模式(Normal mode) …

第14张 GROUP BY 分组

一、分组功能介绍 使用group by关键字通过某个字段进行分组&#xff0c;对分完组的数据分别 “SELECT 聚合函数”查询结果。 1.1 语法 SELECT column, group_function(column) FROM table [WHERE condition] [GROUP BY group_by_expression] [ORDER BY column]; 明确&#…