[ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云,实测表现超预期

在这里插入图片描述

文章目录

    • 一、前言
    • 二、Claude 3 介绍以及相关测试细节
    • 三、在亚马逊云科技上体验 Claude 3
      • 3.1 在 Amazon Bedrock 服务中配置 Claude 3
      • 3.2 为聊天配置使用 Claude 3 模型
      • 3.3 Caude 3 Sonet 聊天体验
    • 四、文末总结
    • 五、参考文献

一、前言

3月4号,Anthropic 发布了号称现阶段宇宙最强大模型 Claude 3,到底强到什么程度,直接看这张图即可。

发文时间点 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用本文第三节会介绍如何在亚马逊云科技上使用 Claude3 模型。

二、Claude 3 介绍以及相关测试细节

这次发布包括了三个版本:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们的能力从低到高。

首先是Haiku,它是市场上速度最快、成本效益最高的选择,对于大部分的纯文本任务表现出色,同时也支持多模态能力。

Sonnet 则比之前的 Claude 2 和 Claude 2.1 快两倍,并且智能水平更高。它擅长处理需要快速响应的智能任务,比如知识检索或者销售自动化。它在智能和速度之间达到了完美平衡,这对企业应用来说尤为重要。

Opus 是最顶级、最强大的基础模型,具备深度推理、高级数学和编码能力,在高度复杂的任务上表现出色。它能够流畅地处理各种开放式提示和新颖场景,包括任务自动化、假设生成以及图表、图形和预测的分析。适用于需要高度智能和复杂任务处理的场景,比如企业自动化、复杂金融预测、研究和开发等。

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus的能力可以参考下面的图示:

在这里插入图片描述

在相关测评中,Opus表现出色,多项基准测试中的得分都超过了GPT-4和Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度上树立了新的行业标准。特别是在特定测试场景下,如研究生水平考试Q题解A和数学Q题解决上,Claude 3的表现优于GPT-4。比如,在zero-shot学习环境下,Claude 3的准确率达到了60%,超过了GPT-4的52%。

在 Babel.cloud 开源评估项目的 LLMRGB 项目中,Claude3 在单次测试中获得了高达97.6的高分,大大超过了GPT-4,成为当前大型模型能力的领先者。

在这里插入图片描述

(测试结果图片以及仓库见文末参考文献)

要特别注意的是,在 LLM-RGB 评估中,015_simple_mahjong 是个超级难题。简单地说,大型模型被教了一些简单的麻将规则,还给了一些例子,然后要求在一个具体情境下做出选择。这个问题在以前的测试中很少有人能正确解答。不过,Claude 3 Opus20%的几率给出最佳解答,还有80%的几率给出次优解。这意味着它的多轮推理能力远远超过其他模型,能够快速学习并应用有限的知识。这使得 Claude 3 的应用领域不仅限于简单的客服和文本生成,它在工程过程更长的领域也能表现出色。

三、在亚马逊云科技上体验 Claude 3

3.1 在 Amazon Bedrock 服务中配置 Claude 3

目前,Anthropic 的 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全免费试用

Amazon 上的体验服务入口:https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=KOCKOL

进入后无需注册账号,仅需要扫码进入 CloudAssist,然后点击限时试用即可,如下图

下一代 Claude (Claude 3) 的三个模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯一一个提供 Claude 3 Sonnet 的托管服务。

在这里插入图片描述

在 Amazon Bedrock 服务中,点击下面的入门按钮

在这里插入图片描述

进入到 Amazon Bedrock 后,首先需要管理模型的访问权限,这后面需要申请所需的模型,在这个步骤直接点击 [管理模型访问权限] 按钮即可。

在这里插入图片描述

进入到模型列表页面后,可以看到 Amazon Bedrock 中内嵌了很多模型,不过这些模型默认没有配置访问,这需要你做访问请求,也就是继续点击配置模型访问权限操作。

在这里插入图片描述

进入到模型请求访问权限页面后,可以看到 Anthropic 公司的模型,在做请求之前,需要先提交应用场景。如下图

在这里插入图片描述

下面的信息是必填信息,需要填写后,按钮才会高亮,允许继续点击

在这里插入图片描述

在上一步点击提交按钮后,勾选所需的模型,这里直接全选了所有模型做请求。

在这里插入图片描述

最后请求过程中可能需要等待几分钟。等待请求完成即可。

在这里插入图片描述

3.2 为聊天配置使用 Claude 3 模型

在上述步骤配置好后,在 Amazon Bedrock 页面,选择聊天菜单,之后点击【选择模型】按钮,选择 Claude 3 模型。

在这里插入图片描述

进入到模型选择页面,选择 Anthropic 公司中的 Claude 3,点击应用即可。

在这里插入图片描述

3.3 Caude 3 Sonet 聊天体验

第一个问题我是直接问他使用pyhon写一个3次的循环,可以看出 Caude 3 不局限一种方式书写,并且将多个实现写出,后面并且给出的测试打印结果。可以说你后面想问的或者拓展的很好。

在这里插入图片描述

接下来我使用 Claude 3 进行了一个图片识别,并且让 Claude 3 进行了分析总结, 传给 Claude 3 的图片是一张中国地图,并且带有一些描述信息。

可以看到最后 Claude 3 给的分析总结非常精准,精准到我有点吃惊。

在这里插入图片描述

对图片进行识别的测试,我上传了一只猫,可以看到 Claude 3 不仅分析了动物是什么,还直接描述了这个图片中猫的场景动作。

在这里插入图片描述

另外一个让我吃惊的是,我上传了一张车的图片,让他识别出来车的型号,Claude 3 可以几乎精准识别。问题以及 Claude 3 的回答可以看下图。

在这里插入图片描述

四、文末总结

个人觉得,Claude 3 的超预期成功并不意味着 Anthropic 的能力已经完全超越了OpenAI。现在看 Claude 3 显然比 GPT4 更强大,但也许GPT-5 已经在 OpenAI 手中了。

然而,Claude 3 的出现表明大型模型领域不再由单一实体主导,也没有只有 OpenAI 才能创造的“核心魔法”。更多地涉及领先于工程能力和资源投入。大型基础模型之间的竞争为上层应用开发人员提供了更多选择,并将不可避免地带来更低的价格。从这个角度来看,无论 Claude 3 的成功被高估了多少,都带来了重要的行业价值和社会影响。

五、参考文献

  • https://github.com/babelcloud/LLM-RGB
  • https://llm-rgb.babel.run/view/testId/a581e4a9-ce1e-4b2f-8f45-980889913b58
  • https://mp.weixin.qq.com/s?__biz=MzA4ODMwMDcxMQ==&mid=2651122739&idx=1&sn=667fcc30565cb1ba6510307747fbf78e

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/433441.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于el-tree实现懒加载穿梭条

一、关键代码 <template><div><!-- 左侧待选列表 --><div class"left-box"><p>待选列表</p><el-input placeholder"输入关键词过滤" v-model"leftFilterText" clearable/><el-treeref"tree…

鱼哥赠书活动第12期:《基于React低代码平台开发》

鱼哥赠书活动第12期&#xff1a;《基于React低代码平台开发》 一、React与低代码平台的结合优势二、基于React的低代码平台开发挑战三、基于React的低代码平台开发实践四、未来展望内容简介&#xff1a;作者简介如何阅读&#xff1a;适合阅读人群&#xff1a;赠书抽奖规则:往期…

OpenText™ Migrate 软件, 结构化、可重复的工作负载迁移,停机时间几乎为零

OpenText™ Migrate 允许用户将任何规模和各种复杂度的物理、虚拟和云工作负载轻松地迁移到任何环境&#xff0c;并且停机时间几乎为零。微调自动化有助于协调流程的每个阶段。 为什么选择 OpenText Migrate&#xff1f; 1、满足您所有迁移需求的单一解决方案 OpenText Migra…

SqlServer中连续号及断号查询—附源码

效果如下图所示&#xff1a; SqlServer中连续号及断号查询SQL如下&#xff1a; --1.定义临时表 DECLARE TestTemp TABLE(TestCode NVARCHAR(50),TestNum INT )DECLARE DataTemp TABLE(TestCode NVARCHAR(50),TestNumStr NVARCHAR(100) )--2.插入测试数据 INSERT INTO TestT…

供应链优化:降本增效的核心战略——张驰咨询

在当今这个高度竞争的商业环境中&#xff0c;企业为了保持竞争力&#xff0c;不断寻求降低成本和提升效率的策略变得至关重要。有效的成本控制和效率提升不仅能够增加企业的利润率&#xff0c;还能增强其市场地位和客户满意度。以下是一些实用的策略&#xff0c;旨在帮助企业实…

2024春招面试,2024年阿里Android高级面试题分享

前言 作为一个3-5年的Android工程师&#xff0c;我们经常会遇到这些瓶颈&#xff1a; 1.技术视野窄 长期在小型软件公司&#xff0c;外包公司工作&#xff0c;技术视野被限制的太厉害 2.薪资提升难 初中级Android岗位薪资上升空间有限&#xff0c;基本上你想拿15k以上&#…

android开发教程百度网盘,高并发系统基础篇

展望未来 操作系统 移动操作系统的演变过程&#xff0c;从按键交互的塞班功能机到触摸屏交互的Android/IOS智能机&#xff0c;从小屏幕手机到全面屏、刘海屏、水滴屏。任何系统无非干两件事&#xff1a;输入和输出&#xff0c;接收到外部输入信号后经过操作系统处理后输出信息…

【前端系列】vue

这里写目录标题 一、Vue简介1.1 主流前端框架/库简介 二、下载和安装Vue2.1 下载2.2 安装完成后&#xff0c;检查2.3创建全局安装目录和缓存日志目录2.4 为了下载包快速&#xff0c;改源为淘宝镜像2.5 查看npm配置修改是否成功 三、配置环境变量环境变量—用户变量—选中Path—…

字符指针数组指针的理解

1.字符指针&#xff1a;也就是存放字符地址的指针&#xff08;和整型指针差不多&#xff09; 代码如下&#xff1a; int main() {char ch w;char *pc &ch;*pc w;return 0; } 2.数组指针&#xff1a;也就是指向数组的指针 2.1数组指针如何初始化 int main() {int ar…

学习大数据,所必需的java基础(8)

文章目录 字符缓冲流字符缓冲输出流 _Buffered和Writer字符缓冲输入流字符缓冲流练习 转换流字符编码字符集转换流转换流_OutputStreamWriter序列流和反序列流的介绍序列化流_ObjectOutputStream反序列化_ObjectInputStream不想被序列化操作反序列化时出现的问题以及分析和解决…

低代码平台,面向业务or技术?

低代码开发平台是一种新兴的技术趋势&#xff0c;它为企业提供了快速、高效地开发应用程序的方法。随着数字化转型的加速&#xff0c;越来越多的企业开始关注低代码开发平台&#xff0c;并在实际应用中取得了一定的成果。 作为使用者来说&#xff0c;面对市场上形形色色的低代…

力扣hot100:438.找到字符串中所有字母异位词(滑动窗口)

26个字符&#xff0c;我复制怎么了&#xff1f;26个字符我比较个数怎么了&#xff1f; 顶多时间复杂度*26 本题用固定窗口大小的滑动窗口每次比较包含26个元素的数组次数&#xff0c;最容易写。 动态窗口大小哈希表存数值&#xff08;双指针差值&#xff09;难想难写。 一、动态…

【随笔】yt-dlp使用cookie完成身份认证 python yt-dlp库常用参数

文章目录 一、提取cookies1.1 不提取出来1.2 提取为单独文件1.2 使用cookies 二、yt-dlp 用法&#xff08;python库&#xff09;基本参数视频参数播放列表参数高级参数 以前用yt-dlp做的软件&#xff1a; 但是部分网站需要在登录状态才能获取更高格式的内容。 比如&#xff…

dolphinscheduler试用(一)(边用边修bug。。。。create tenant error)

&#xff08;作者&#xff1a;陈玓玏&#xff09; 前提&#xff1a;部署好了dolphinscheduler&#xff0c;部署篇见https://blog.csdn.net/weixin_39750084/article/details/136306890?spm1001.2014.3001.5501 官方文档见&#xff1a;https://dolphinscheduler.apache.org/…

数据结构(二)——线性表

二、线性表 2.1线性表的定义和基本操作 2.1.1 线性表的基本概念 线性表&#xff1a;是具有相同数据类型的 n 个数据元素的有限序列。(Eg:所有的整数按递增次序排列&#xff0c;不是顺序表&#xff0c;因为所有的整数是无限的)其中n为表长&#xff0c;当n0时线性表是一个空表…

将ppt里的视频导出来

将ppt的后缀从pptx改为zip 找到【media】里面有存放图片和音频以及视频&#xff0c;看文件名后缀可以找到&#xff0c;mp4的即为视频&#xff0c;直接复制粘贴到桌面即可。 关闭压缩软件把ppt后缀改回&#xff0c;不影响ppt正常使用。

2023年全球AI服务器市场占有率

关注卢松松&#xff0c;会经常给你分享一些我的经验和观点。 AI服务器是高端产品&#xff0c;全球都缺高端AI芯片&#xff0c;最近集邦咨询发布了2023 年全球 AI 服务器市场占有率的市场报告。 排名第一的是浪潮&#xff0c;第二名是戴尔、第三名是HPE(慧与也跟惠普有关)、第…

各种业务场景调用API代理的API接口教程

API代理的API接口在各种业务场景中具有广泛的应用&#xff0c;本文将介绍哪些业务场景可以使用API代理的API接口&#xff0c;并提供详细的调用教程和代码演示&#xff0c;同时&#xff0c;我们还将讨论在不同场景下使用API代理的API接口所带来的好处。 哪些业务场景可以使用API…

Qt ini配置文件

ini文件用于保存用户的设置操作&#xff0c;下列以背景颜色设置为例子 暂时默认设置为白色背景 这段代码放置在主窗口的构造函数中&#xff0c;用于初始化读取ini文件 QString color;QSettings *set new QSettings("color.ini",QSettings::IniFormat);set->begi…

泰迪智能科技-2024年高校大数据人才培养探索模式

随着数字经济的高速发展&#xff0c;对于大数据人才的需求日益增长。产业数字化和数字产业化之间的关系&#xff0c;已经成为推动社会发展的关键。为此&#xff0c;高校及产业界需要紧密配合&#xff0c;以培养出符合时代需求的大数据人才。 数字产业化与产业数字化高速发…