书生·浦语2.5开源,推理能力再创新标杆

2024 年 7 月 3 日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5(InternLM2.5)。相比上一代模型,InternLM2.5 有三项突出亮点:

  • 推理能力大幅提升,领先于国内外同量级开源模型,在部分维度上甚至超越十倍量级的 Llama3-70B;

  • 支持 1M tokens 上下文,能够处理百万字长文;

  • 具有强大的自主规划和工具调用能力,比如可以针对复杂问题,搜索上百个网页并进行整合分析。

InternLM2.5-7B 模型即日起开源可用,更大和更小的模型也将在近期发布开源。上海人工智能实验室秉持“以持续的高质量开源赋能创新”理念,在为社区始终如一地提供高质量开源模型的同时,也将继续坚持免费商用授权。

GitHub 链接:GitHub - InternLM/InternLM: Official release of InternLM2.5 7B base and chat models. 1M context support HuggingFace 模型:https://huggingface.co/internlm

书生·浦语主页:书生·浦语

性能加速器:合成数据+模型飞轮

随着大模型的快速发展,人类积累的数据也在快速消耗,如何高效地提升模型性能成为了当前面临的重大挑战。为此,我们研发了新的合成数据和模型飞轮,一方面通过合成数据弥补领域高质量数据的不足,另一方面通过模型的自我迭代不断完成数据提升和缺陷修复,从而大大加快了 InternLM2.5 的迭代。

针对不同的数据特点,我们制定了多种的数据合成技术方案,保障不同类型合成数据的质量,包括基于规则的数据构造,基于模型的数据扩充,和基于反馈的数据生成。

在研发过程中,模型本身也被持续不断地应用于模型的迭代。我们基于当前模型构建了多智能体用于数据的筛选、评估和标注,大幅提升了数据质量和多样性。同时也使用模型进行新语料的生产和精炼,让模型能够随着训练过程对发现的问题进行修复。

领先的推理能力

强大的推理能力是大模型通向通用人工智能的重要基础,InternLM2.5 将推理能力作为模型最核心的能力进行优化,为复杂场景的应用落地提供了良好的基础。

基于司南 OpenCompass 开源评测框架,研究团队使用统一可复现的评测方法在多个推理能力权威评测集上进行了评测。相比上一代模型,InternLM2.5 在多个推理能力权威评测集上实现了大幅性能提升,尤其在由竞赛问题构成的数学评测集 MATH 上更是提升100%,以 7B 参数达到了 60% 的准确率(达到 GPT-4 Turbo 1106 版本的水平),充分展示了模型在数学推理上的优异成绩。

在过去的几个月里,大模型开源社区快速发展,涌现了一大批优秀的模型。和国内外最新的开源模型相比,InternLM2.5-7B-Chat 在绝大部分推理评测集上领先于同量级模型,相比前代模型更是实现了跨量级的性能超越,在部分维度上甚至赶超了十倍体量的 Llama3-70B-Instruct。

我们通过一个例子来展示 InternLM2.5 优秀的推理能力。

User:

| 排名 | 国家 / 地区          | 金牌 | 银牌 | 铜牌 | 总计 |
|------|---------------------|------|------|------|------|
| 1    | 美国(USA)         | 39   | 41   | 33   | 113  |
| 2    | 中国(CHN)         | 38   | 32   | 19   | 89   |
| 3    | 日本(JPN)         | 27   | 14   | 17   | 58   |
| 4    | 英国(GBR)         | 22   | 20   | 22   | 64   |
| 5    | 俄罗斯奥林匹克委员会(ROC)| 20   | 28   | 23   | 71   |
| 6    | 澳大利亚(AUS)     | 17   | 7    | 22   | 46   |
| 7    | 荷兰(NED)         | 10   | 12   | 14   | 36   |
| 8    | 法国(FRA)         | 10   | 12   | 11   | 33   |
| 9    | 德国(GER)         | 10   | 11   | 16   | 37   |
| 10   | 意大利(ITA)       | 10   | 10   | 20   | 40   |

根据提供的2020年东京奥运会奖牌榜部分信息,请回答列表中属于北美洲国家和大洋洲国家的银牌奖牌和是多少?

Assistant: 

根据提供的信息,北美洲和大洋洲国家的银牌奖牌数如下:

北美洲国家:
- 美国(USA):41枚银牌
- 加拿大(未在列表中,但作为北美洲国家,其银牌数未提供)

大洋洲国家:
- 澳大利亚(AUS):7枚银牌

因此,北美洲和大洋洲国家的银牌总数为:
41(美国)+ 7(澳大利亚)= 48枚银牌。

User:

根据我提供的信息,现在请你在排名前3的国家中,将金、银、铜牌每一项都至少有15枚的所有国家筛选出来,绘制成表格,请一步步思考来完成这个问题

Assistant:

好的,让我们一步步来解决这个问题。

首先,我们需要确定排名前3的国家,根据您提供的信息,这些国家是美国、中国和日本。

接下来,我们需要筛选出这些国家中,金、银、铜牌每一项都至少有15枚的国家。

让我们逐一检查这些国家:

1. 美国(USA):金牌39枚,银牌41枚,铜牌33枚。所有奖牌数都超过了15枚,因此美国符合条件。

2. 中国(CHN):金牌38枚,银牌32枚,铜牌19枚。所有奖牌数都超过了15枚,因此中国符合条件。

3. 日本(JPN):金牌27枚,银牌14枚,铜牌17枚。只有金牌数超过了15枚,因此日本不符合条件。

因此,只有美国和中国符合条件。现在我们可以将这些信息绘制成表格:

| 排名 | 国家 / 地区          | 金牌 | 银牌 | 铜牌 | 总计 |
|------|---------------------|------|------|------|------|
| 1    | 美国(USA)         | 39   | 41   | 33   | 113  |
| 2    | 中国(CHN)         | 38   | 32   | 19   | 89   |

请注意,日本(JPN)虽然金牌数超过了15枚,但银牌和铜牌数没有达到要求,因此没有包含在表格中。

100万 Token 长文本支持,文档对话系统全开源

在长文档理解、复杂的智能体交互等应用场景中,模型的上下文长度支持有着更高的要求。InternLM2.5 提出了解决方案,将上下文长度从上一代模型 InternLM2 的 200K 提升到了 1M(约合 120 万汉字),进一步释放了模型在超长文本应用上的潜力。在模型的预训练中,我们从自然语料中筛选出了 256K Token 长度的文本,同时为了避免语料类型过于单一而导致的域偏移,我们通过合成数据进行了补充,使得模型在扩展上下文的同时可以尽量保留其能力。

我们采用了业界流行的“大海捞针”来评估模型的长文信息召回内容,下图显示,InternLM 2.5 在 1M token 范围内实现了几乎完美的大海捞针召回,呈现了极强的长文处理能力。

除此之外,我们还使用了广泛使用的长文理解能力评测集 LongBench 来进行评估,结果显示 InternLM2.5 取得了最优的性能。

GLM4-9B-Chat-1M

Qwen2-7B-Instruct

Yi1.5-9B-chat

InternLM2.5-7B-Chat-1M

Longbench

46.5

41.2

37.2

47.4

依托于 InternLM2.5 的长文本能力,我们开发了文档对话应用,支持用户私有化部署模型,自由上传文档进行对话。并且整个系统全链路开源,方便用户一键搭建,包括 LMDeploy 长文本推理后端支持,MinerU 多类型文档的解析转换能力,基于 Streamlit 的前端对话体验工具等。目前支持 TXT,Markdown 和 PDF 文档,后续会持续支持如 Word、PPT 等多种办公文档类型。

基于网络信息高效解决复杂问题

针对需要大规模复杂信息搜索和整合的复杂问题场景,InternLM2.5 创新性地提出了 MindSearch 多智能体框架,模拟人的思维过程,引入了任务规划、任务拆解、大规模网页搜索、多源信息归纳总结等步骤,有效地整合网络信息。其中,规划器专注于任务的规划、拆解和信息归纳,采用图结构编程的方式进行规划,并根据任务状态进行动态拓展,搜索器负责发散式搜索并总结网络搜索结果,使得整个框架能够基于上百个网页的信息进行筛选和浏览和整合。

经过针对性能力增强,InternLM2.5 能够有效从上百个网页中进行信息筛选、浏览和整合,解决专业的复杂问题,将人类需要 3 小时才能完成的调研总结工作缩短到了 3 分钟。如下面的视频所示,对于多步骤的复杂问题,模型能够分析用户需求,先搜索嫦娥 6 号的技术难点、再针对每一个技术难点搜索对应的解决方案,再从任务目标、技术手段、科学成果、国际合作 4 个方面对比阿波罗 11号 登月计划,最后总结我国探月成功的贡献。

书生·浦语2.5开源,推理能力再创新标杆

拥抱更广泛的开源生态

除了开源模型,书生·浦语从去年 7 月份开始推出了面向大模型研发与应用的全链条开源工具体系,贯穿数据、预训练、微调、部署、评测、应用六大环节。这些工具让用户能够更轻松地进行大模型的创新和应用,推动大模型开源生态的繁荣发展。随着 InternLM2.5 的发布,全链条工具体系也迎来了升级,对于应用环节进行了拓展,面向不同需求提供了新的工具,包括:

  • HuixiangDou 领域知识助手(GitHub - InternLM/HuixiangDou: HuixiangDou: Overcoming Group Chat Scenarios with LLM-based Technical Assistance),专为处理群聊中的复杂技术问题而设计,适用于微信、飞书、钉钉等平台,提供完整的前后端 web、Android 及算法源码,支持工业级应用。

  • MinerU 智能数据提取工具(GitHub - opendatalab/MinerU: MinerU is a one-stop, open-source, high-quality data extraction tool,supports PDF/webpage/e-book extraction.),为多模态文档解析打造,不仅能将混合了图片、表格、公式等在内的多模态 PDF 文档精准转化为清晰、易于分析的 Markdown 格式,还能从包含广告等各种干扰信息的网页中快速解析、抽取正式内容

除了自研的全链条开源工具体系之外,InternLM2.5 积极拥抱社区,兼容广泛的社区生态项目,主流开源项目“一网打尽”。

书生大模型实战营

上海人工智能实验室去年 12 月份推出了书生·浦语大模型实战营,收到社区的一致好评,半年来累计已有 15 万人次参与学习,并孵化出超 600 个生态项目。在 InternLM2.5 发布之际,我们也正式宣布书生·浦语大模型实战营正式升级为书生大模型实战营,逐步加入更多书生大模型体系课程与实战, 带你从入门到进阶,大模型时代不迷航。

7 月 10 日至 8 月 10 日将正式开启第三期书生大模型实战营,在实战营中手把手带大家微调、部署 InternLM2.5 模型,免费算力及助教老师全程陪伴,还有权威的官方证书,快来报名学习吧!

报名链接:https://www.wjx.cn/vm/PvefmG2.aspx?udsid=831608

总结

书生·浦语以持续的高质量开源赋能创新,坚持开源和免费商用,面向实际应用场景提供更好的模型和工具链。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/792772.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【代码随想录】【算法训练营】【第59天】 [卡码110]字符串接龙 [卡码105]有向图的完全可达性 [卡码106]岛屿的周长

前言 思路及算法思维,指路 代码随想录。 题目来自 卡码网。 day 59,周五,继续ding~ 题目详情 [卡码110] 字符串接龙 题目描述 卡码110 字符串接龙 解题思路 前提: 思路: 重点: 代码实现 C语言 […

光伏仿真系统推荐

在全球能源转型和绿色能源发展的背景下,光伏行业作为重要的绿色能源组成部分,其智能化、数字化的发展显得尤为关键。光伏仿真系统作为提升光伏项目设计、运维效率的重要工具,在行业中扮演着不可或缺的角色。在众多光伏仿真系统中,…

自动化(二正)

Java接口自动化用到的技术栈 技术栈汇总: ①Java基础(封装、反射、泛型、jdbc) ②配置文件解析(properties) ③httpclient(发送http请求) ④fastjson、jsonpath处理数据的 ⑤testng自动化测试框架重点 ⑥allure测试报…

从0开始的STM32HAL库学习4

对射式红外传感器计数复现 配置工程 我们直接复制oled的工程,但是要重命名。 将PB14设置为中断引脚 自定义命名为sensorcount 设置为上升沿触发 打开中断 配置NVCI 都为默认就可以了 修改代码 修改stm32f1xx_it.c 文件 找到中断函数并修改 void EXTI15_10_I…

element plus 实现跨页面+跨tab栏多选

文章目录 element plus 层面数据层面 菜鸟好久没写博客了,主要是没遇见什么很难的问题,今天碰见了一个没有思路的问题,解决后立马来和大家伙分享了! 菜鸟今天要实现一个需求,就是:实现跨页面跨 tab栏 多选…

Linux 程序卡死的特殊处理

一、前言 Linux环境。 我们在日常编写的程序中,可能会出现一些细节问题,导致程序卡死,即程序没法正常运行,界面卡住,也不会闪退... 当这种问题出现在客户现场,那就是大问题了。。。 当我们暂时还无法排…

USB转RS485+RS232+TTL串口电路

USB转RS485RS232TTL电路 USB转RS485RS232TTL电路如下图所示,可实现USB转RS485RS232TTL串口,一个电路模块即可实现电路调试过程中用到常用接口。 电路模块上留有2.54MM单排针接口和接线端子两种接线方式,可接线和跳线。电路模块同时有5V和3.3V…

不仅是输出信息,console.log 也能玩出花

console.log 是 JavaScript 中一个常用的函数,用于向控制台输出信息。 console.log 虽然主要用于调试目的,但也包含了一些有趣的用法, console.log 不仅能输出文本,还能以更丰富的方式展示信息。 比如我们打开 B 站,然…

计算机网络体系结构解析

OSI参考模型 与 TCP/IP模型 如图所示 TCP/IP模型有几层 应用层:只需要专注于为用户提供应用功能 HTTP、SMTP、Telnet等,工作在操作系统中的用户态,传输层及以下工作在内核态传输层:为应用层提供网络支持(TCP、UDP传…

c++多态的定义和原理

目录 1、多态的定义和实现 1.多态的构成条件 2.虚函数 3.虚函数的重写(覆盖) 4.虚函数重写的两个例外 5.c11 override和final 6.重载,覆盖(重写)和隐藏(重定义) 2、抽象类 概念 接口继承和实现继承 3、多态的原理 1.虚函数表 2.多态的原理 4、多继承中的虚…

武夷山细节决定成败抓质量求生存

在当今竞争激烈的市场环境中,细节决定成败,质量求生存的理念已成为企业发展的关键。蓝鹏测控科技有限公司,一家专业从事工业测量领域的高新技术企业,正是秉持这一理念,在工业测径仪领域取得了显著成就。 蓝鹏测控科技…

Ozon俄罗斯哪些产品热销中?Ozon7月市场热卖趋势放送

Ozon俄罗斯哪些产品热销工具:D。DDqbt。COm/74rD 据Ozon数据,2023年,在自提服务方面,Ozon投资了100亿扩展自提网络,自提点数量激增至超过5万个,是之前的2.6倍。 物流基础设施方面,Ozon在仓库建…

BGP第二日

上图为今日所用拓扑 ,其中R1和R4,R3和R5为EBGP邻居,R1和R3为IBGP邻居,AS200区域做OSPF动态路由 一.BGP建立邻居的六种状态 1.idle 空闲状态:建立邻居最初的状态 2.Connect 连接状态:在…

360安全浏览器就是不行-python秒破解

下面画框都很容易破解,大家试试

ZGC在三色指针中的应用

ZGC基于颜色指针的并发处理算法 ZGC初始化之后,整个内存空间的地址视图被设置为Remapped,当进入标记阶段时的视图转变为Marked0(也称为M0)或者Marked1(也称为M1),从标记阶段结束进入转移阶段时…

怎么样的主食冻干算好冻干?品质卓越、安全可靠的主食冻干分享

当前主食冻干市场产品质量参差不齐。一些品牌过于追求营养数据的堆砌和利润的增长,却忽视了猫咪健康饮食的基本原则,导致市场上出现了以肉粉冒充鲜肉、修改产品日期等不诚信行为。更令人担忧的是,部分产品未经过严格的第三方质量检测便上市销…

MATLAB中的SDPT3、LMILab、SeDuMi工具箱

MATLAB中的SDPT3、LMILab、SeDuMi工具箱都是用于解决特定数学优化问题的工具箱,它们在控制系统设计、机器学习、信号处理等领域有广泛的应用。以下是对这三个工具箱的详细介绍: 1. SDPT3工具箱 简介: SDPT3(Semidefinite Progra…

Jetson-AGX-Orin 非docker环境源码编译安装CyberRT

Jetson-AGX-Orin 非docker环境源码编译安装CyberRT 1、安装依赖 sudo apt update sudo apt-get install g gdb gcc cmake sudo apt install libpoco-dev uuid-dev libncurses5-dev python3-dev python3-pip python3 -m pip install protobuf3.14.02、下载CyberRT源码 git cl…

拥抱 AGI:PieDataCS 引领云原生数据计算系统新范式

自2023年后,人工智能技术进入了一个更为成熟和广泛应用的阶段,人工通用智能(AGI)这一概念也成为了科技界和产业界热议的焦点。本文将结合 AGI 时代背景,从架构设计到落地实践,详细介绍拓数派云原生数据计算…

Spring开发实践(四)

VO,BO,PO,DO,DTO的区别 1、PO:Persistant Object(持久对象),基本上,PO对象中的属性就是对应着数据库中表的字段,加上⼀些get和set⽅法的组成。例:个⼈信息表中分别有&am…