百川大模型拿下国产第一,AI助手「百小应」上线,比Kimi强不少

最近几天,国内 AI 创业公司正在连续刷新大模型的能力上限。

5 月 22 日,百川智能发布最新一代基座大模型 Baichuan 4,同时推出了首款 AI 助手「百小应」。

相较 1 月份发布的 Baichuan 3,新一代模型在各项能力上均有大幅提升,其中通用能力提升超过 10%,数学和代码能力分别提升 14% 和 9%,在国内权威大模型评测机构 SuperCLUE 的评测中,Baichuan-4 大模型能力排名国内第一,超越了 SenseChat V5。

「在通往 AGI 的路上,我们需要超级模型 + 超级应用的双轮驱动。这是百川自去年成立时确立的基本理念,」百川智能创始人、CEO 王小川表示。「模型能力与超级应用都非常重要。这次的发布,是我们在这条道路上的进步。」

图片

本次更新的 Baichun 4 大模型首次带来了多模态能力。百川表示,新模型在各大评测基准上表现优异,领先 Gemini Pro、Claude3-sonnet 等多模态模型。

尽管带来了多模态能力,但接下来的技术发展规划中,自然语言仍然是重点。王小川表示,大模型的核心是语言智能,推理能力仍然需要突破,多模态没有智力,只是对世界的复现。

「今天的大模型自洽性都不够,模型思考缺乏严谨性。有足够好的逻辑是更加重要的事。我不认为模型的长文本是唯一的事情,现在 AI 公司在长文本上竞争,但长文本只是做大的必要条件,不是充分条件。我认为模型本身未来更要强调内在的自洽性和推理能力,这两件事并不是靠长窗口去解决的,」王小川表示。

在 Baichuan 4 强大能力的基础上,百川智能将搜索技术与大模型深度融合,推出懂搜索、会提问的 AI 助手「百小应」。

图片

百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索等搜索能力,能更精准地理解用户需求,为用户提供专业、丰富的知识和资源。此外还会在用户问题的基础上通过一系列提问来帮助用户明确自身需求,给出更精准的答案。

百小应现在已经在 Web 端、iOS 和安卓应用商店同步上线,链接:https://ying.baichuan-ai.com/chat

此外,百川智能还宣布开放 Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API 四款 API,所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应 API,便捷高效地体验百川智能新一代模型的强大能力。

图片

新模型能力国内第一

多项能力超越国外主流模型

作为百川智能发布的最新一代基座大模型,Baichuan 4 在国内权威大模型评测机构 SuperCLUE 的评测中,模型能力国内第一,相较上一代大模型 Baichuan 3 提升显著。

图片

不仅如此,与国外主流大模型对比,Baichuan4 在知识百科、长文本、生成创作等文科类中文任务上明显优于国外大模型。

图片

Baichuan 4 能在较短的时间内取得突破,源于其在训练过程中引入了诸多业界领先的技术优化手段。例如,其在预训练阶段采用了基于 Model-based+Human-based 的协同数据筛选优化方法,以及对长文本建模位置编码科学的 Scaling Law,有效提升了模型对数据的利用。

在对齐阶段,新模型重点优化了模型 Reasoning、Planning、Instruct following 能力,通过 loss 驱动的数据选取与训练,多阶段爬坡,多模型参数融合等方式有效提升了模型的关键指标和稳定性。同时突破 RLHF 和 RLAIF 融合的 RLxF 强化学习对齐技术,大幅提升模型的指令遵循等能力。

此外,Baichuan 4 还具备行业领先的多模态能力,在 MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista 等评测基准上表现优异,大幅领先 Gemini Pro、Claude3-sonnet 等多模态模型。

图片

首款 AI 助手百小应

懂搜索、会提问

「百小应」是百川智能成立之后推出的首款 AI 应用。百川智能认为,不同于信息时代工具属性的产品,大模型创造的是新物种,让 AI 从工具变为伙伴。虽然受限于模型能力,当下的 AI 应用还无法完全做到如同人一样,能够使用工具、会思考、有情感等,但随着模型能力的持续提升,相关应用一定会逐步具备完整能力。

为了让用户能够拥有更优质的智能体验,百小应很好地融合了 Baichan 4 行业领先的通用能力与百川智能前沿的搜索技术,具备多步搜索、智能定向搜索等能力,将百小应打造成一款懂搜索、会提问的 AI 助手。

百川着重展示了百小应交互中的多轮搜索能力。针对用户提出的问题,百小应可以逐步解析,深入探究,解锁问题的核心答案。相比单轮搜索,在市场调研、产业分析等复杂场景下,多轮搜索能够有效地获取更专业、更有深度的信息。定向搜索则能让百小应精准定位问题领域,直接访问权威站点,快速、准确地找到相关信息。

在搜索结果呈现方面,百小应同样与其他在单次搜索后「简单总结网页信息」的应用不同,会将搜索结果作为观点、论据直接应用到问答结果中。与此同时,其结果的结构化也非常优秀,能够将搜索结果以表格等结构化形式呈现,优化信息布局,便于用户快速定位、解读所需信息,可以为行业分析、调研工作提供助力。此外,百小应还在搜索结果中增加了来源参考,用户只需点击引用角标即可快速校验搜索结果。

不仅如此,针对一部分用户无法明确表述出自身需求,或者问题过于笼统、抽象的情况,百小应还会通过反问的方式,多轮交互定位需求,构建个性化解决方案,给出更精准的答案。

除了强大的搜索和提问功能以外,用户还能在百小应中上传 PDF、word 文档,或者直接输入网页链接(URL),阅读并分析书籍、报告、学术论文等长篇内容,仅用一分钟便能读完上市公司财报。在 Baichuan 4 多模态能力的支持下,用户在提问的同时还可以同步上传图片,对图片内容进行解读,或者将图片作为补充材料,获取更精准的回答;并且,它还支持用户通过语音的方式进行交互。

百小应的名称源自「一呼百应」,icon 中的橙色区别于科技领域常用的冷色调,寓意有温度的人工智能,icon 中的形象由水滴和对话气泡组合而成,水滴象征百川入海的无尽智慧,对话气泡象征沟通交流。

图片

MaaS 1000 万免费

token、AaaS 免费试用

百川智能认为,企业客户需要的并不是大模型,而是生产力、生产效率的提升,拥有 MaaS+ AaaS(Agent as a service)双重能力,企业才能构建出智能化的最佳方案。

秉持这一理念,百川智能推出了全新的 MaaS+AaaS 服务。MaaS 版块由基座模型组成,分为旗舰版和专业版。旗舰版将全量开放 Baichuan 4 的各项能力,Baichuan 4 不仅拥有国内第一的中文能力,并且具备行业领先的金融知识和问答能力,在 SuperCLUE 的金融知识百科能力上 Baichuan 3 就已取得了 A + 的最高评级。

专业版包含 Baichuan3-Turbo 和 Baichuan3-Turbo-128K 两款模型,在价格方面相比旗舰版 Baichuan 4 更实惠,且均针对企业用的高频场景进行了针对性优化,综合测试相比 GPT3.5 整体效果提升 8.9%。百川智能表示,即日起,MaaS 的新用户可以获得 1000 万免费 token。

Assitants API 是百川智能在 Baichuan 4 基础上针对 Agent 构建推出的 API 接口,不仅支持 Code interpreter、RAG 内建工具,还支持自定义工具调用,方便企业接入各种丰富复杂的 API。评测结果显示其工具调用能力接近 Open AI Assistants API,本次发布的 Assitants API 现已正式开启公测,感兴趣的用户均可申请免费试用。

未来,百川智能将推出零代码 Agent 创建平台产品,让业务人员通过自然语言的方式,也能创建 Agent,更好地赋能企业智能化发展。

不过除此之外,百川似乎并不热衷于投身目前竞争激烈的大模型 API 价格战。

「中国商业环境里 to B 的市场规模比 to C 小 10 倍,to B 收的是人民币,花的是美金。到最后大厂都会卷这件事,只是没想到大家卷得这么狠,价格已经打到零了。这肯定是大厂射程范围内的,而我们肯定要做差异化,」王小川表示。

面向消费端的百小应,是百川智能投身超级应用的重要一步。

图片

百小应不仅没有上套,还直接点破了这个套路:拼多多成立于2015年9月,所以2010年没有用户数据。

百小应与文心一言、Kimi 智能助手相似,面向C端消费市场,主打卖点是“懂搜索,会提问”,这没有跑出目前很火的AI搜索应用的范畴。

根据介绍,百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索、提供嵌入式搜索结果等三重搜索能力。此外,还会在用户问题的基础上,通过一系列提问来帮助用户明确自身需求,给出更精准的答案。并且,它还支持用户通过语音进行交互。

基于百川基座大模型的能力,“会提问”也是百小应与其他简单语音助手的重要差异点。比如当用户问引擎盖打不开了怎么办,它会先询问车辆的品牌和型号,以及是哪一年的车,再给出精准的回答。王小川对此解释说,“大模型要理解人的意图,实现从’助手’向’伙伴’的转变。”

其实,单从名字上就能看出他对“百小应”的期待:一呼百应,从小问题见大能力。但王小川也承认,百小应和他要的形象还有一定的距离,实际效果没有达到他想要的“超级应用”状态。现阶段市场上,既没有超级模型,也没有超级应用。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/648777.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

三轴加速度计M-A352AD实现实时的动态监测

地震监测设备如何快速监测到地震波的发生?如何快速地将地震信号传输到系统或设备上,让人快速做出相应对策?如何在恶劣的环境下,仍能保持稳定可靠的监测?其核心之一就是采用了传感器技术和相关设备,我们可以在地震易发生区域或重点观察的区…

最早做“转化医学”的国货护肤品牌,发力了!

文章来自化妆品行业媒体青眼 作者小朱 放眼全球护肤市场,皮肤科学的力量正在前所未有地凸显,多个国际美妆巨头专门设立了皮肤科学部门,国内皮肤科医生参与护肤品牌创建也成为一股风潮。 据青眼不完全统计,近年来,至少…

UI控件与视图层次:探索界面的无限可能

[OC]UI学习笔记 文章目录 [OC]UI学习笔记视图和视图层次结构CGRectUILabelUIButtonUIView控件UIView的层级关系UIWindow定时器和视图移动UISwitch进度条和滑动条控件步进器和分栏控件警告对话框与等待指示器UITextField 视图和视图层次结构 Objective-C中的UI编程主要围绕视图…

WebGL在历史和考古重建中的应用

WebGL(Web Graphics Library)是一种基于JavaScript的API,用于在浏览器中呈现2D和3D图形。由于其强大的图形处理能力和广泛的兼容性,WebGL在历史和考古重建中的应用具有重要的意义。以下是WebGL在这一领域的主要应用和详细描述。北…

十大品牌落地台灯有用吗?护眼落地灯十大知名品牌

十大品牌落地台灯有用吗?落地台灯作为这几年家长很关注的家电/学生产品,家里有孩子或者是经常面对电子设备的人士,相信都会对其有所了解并且购买了落地台灯,但是还有些家长对落地台灯的认知不够深,以至于还没有给孩子安…

JUC框架(Semaphore、CountDownLatch、CyclicBarrier)

文章目录 Semaphore(信号量)Semaphore介绍Semaphore基本概念Semaphore使用场景Semaphore示例 CountDownLatch (计数器/闭锁)CountDownLatch 介绍CountDownLatch 基本概念CountDownLatch 使用场景CountDownLatch 基本方法CountDownLatch 示例 CyclicBarri…

用PhpStudy在本地电脑搭建WordPress网站教程(2024版)

对新手来说,明白了建站3要素后,如果直接购买域名、空间去建站,因为不熟练,反复测试主题、框架、插件等费时费力,等网站建成可能要两三个月,白白损失这段时间的建站费用。那么新手怎么建测试网站来练手呢&am…

Redis使用Set实现点赞功能

文章目录 set 数据类型介绍不排序实现排序实现 set 数据类型介绍 Redis中的set类型是一组无序的字符串值。 set通过其独特的数据结构和丰富的命令提供了在存储和处理集合元素方面的一些非常有用的功能。下面列出了主要的set类型命令: SADD key member1 [member2]&a…

Docker 常用命令大全!!

Docker 常用命令 一、启动类1. 启动 docker2. 关闭 docker3. 重新启动 docker4. docker 设置自启动5. 查看 docker 运行状态6. 查看 docker 版本号等信息7. docker 帮助 二、 镜像类1. 查看镜像2. 搜索镜像3. 拉取镜像4. 运行镜像5. 删除镜像6. 加载镜像7. 保存镜像 三、容器类…

Java 类加载过程和双亲委派模型

Java 类加载过程概述 在 Java 中,类装载器把一个类装入 Java 虚拟机中,要经过三个步骤来完成:装载、链接和初始化,其中链接又可以分成校验、准备、解析 Java类加载过程分为如下步骤: 1.装载( 加载&#xf…

Go 语言简介 -- 高效、简洁与现代化编程的完美结合

在现代软件开发领域,选择合适的编程语言对于项目的成功至关重要。Go 语言(又称 Golang )自 2009 年由Google发布以来,以其简洁的语法、高效的并发模型以及强大的性能,迅速成为开发者们的新宠。Go语言不仅融合了传统编译…

统计每个活动的用户访问量,且每个用户仅统计一次

场景:统计每个活动的用户访问量,且每个用户仅统计一次。 首先活动表是已经存在了的,一般情况下,我们都会在创建一个用户访问表,其中唯一主键是用户ID活动ID作为唯一主键 create table user_visist_activity_record(i…

Latex:newcommand

参考文献&#xff1a; latex中自定义的命令———\newcommand-CSDN博客LaTeX技巧924&#xff1a;详解newcommand的参数和默认值 - LaTeX工作室 (latexstudio.net) 文章目录 (re)newcommand自定义的一些命令 (re)newcommand ”定义命令“ 的定义&#xff1a; \newcommand{<…

GTX IP生成及参数详解(高速收发器九)

如下图所示&#xff0c;在IP Catalog中搜索gt&#xff0c;然后双击7 Series FPGAs Transcelvers Wizard打开IP配置界面。 图1 打开7 Series FPGAs Transcelvers Wizard IP 1、配置GT Selection界面 首先进入GT Selection配置界面&#xff0c;这个界面主要关注红框部分。从前文对…

AOP、注解、EL表达、若依权限,Security原理综合分析

AOP、注解、EL表达、若依权限&#xff0c;Security原理综合分析 案例一&#xff1a;更新、创建增强 需求产生 每个表中均有创建时间、创建人、修改时间、修改人等字段。 在操作时候手动赋值&#xff0c;就会导致编码相对冗余、繁琐&#xff0c;那能不能对于这些公共字段在某…

Vue3学习-用 vite@latest 初始化项目后,遇到无法识别 .vue 文件

引入app界面遇到 我的解决方案 1.根目录创建 env.d.ts&#xff0c;添加 declare module "*.vue" {import type { DefineComponent } from "vue"const vueComponent: DefineComponent<{}, {}, any>export default vueComponent }2.在 tsconfig.json…

iCloud 照片到 Android 指南:帮助您快速将照片从 iCloud 传输到安卓手机

​ 概括 iOS 和 Android 之间的传输是一个复杂的老问题。将 iCloud 照片传输到 Android 似乎是不可能的。放心。现在的高科技已经解决了这个问题。尽管 Apple 和 Android 不提供传输工具&#xff0c;但您仍然有其他有用的选项。这篇文章与您分享了 5 个技巧。因此&#xff0c;…

⌈ 传知代码 ⌋ 实现沉浸式交互故事体验

&#x1f49b;前情提要&#x1f49b; 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间&#xff0c;对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

左极限与右极限

左极限与右极限 1. 前言 极限描述了函数在一个定点附近的行为&#xff0c;具体说就是当函数的自变量&#xff08;例如 x x x&#xff09;趋近于某一个值时&#xff0c;函数的因变量&#xff08;例如 y y y&#xff09;会产生什么样的特性&#xff08;或结果&#xff09;。 …

降价!免费!AI大模型开启价格战,企业如何“薅”出绿色财富?

近期&#xff0c;国内大模型技术供应商之间的价格战&#xff0c;使得这项原本成本较高的技术变得更加亲民&#xff0c;极大降低了企业的技术采用门槛。这不仅为企业提供了经济实惠的技术解决方案&#xff0c;更为他们的绿色低碳转型之路带来了新的机遇。 随着全球气候变化问题…