LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

        2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。

        Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。

        Haiku模型更注重效率,能以3秒时间阅读一份10,000 tokens的论文;Sonnet比之前的Claude 2/2.1版本更智能,适用于知识检索等任务。

       这三个模型目前都支持20万上下文窗口。Anthropic表示,它们也支持100万上下文,需要消耗巨大AI算力,只提供给特定用户。

       用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。

下面是对官网文章[1]的翻译:

       今天,我们宣布推出Claude 3模型系列,并为一系列认知任务设定了新的行业基准。该系列包括三个最先进的模型,按能力升序排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一个连续的模型都提供了越来越强大的性能,允许用户为其特定应用程序选择智能、速度和成本[2]的最佳平衡。

       Opus和Sonnet现在可以在claude.ai和Claude API中使用,后者现在在159个国家[3]普遍可用,Haiku将很快推出。

一、Claude 3 模型家族

二、智能新标准

        Opus是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科生级专家知识(MMLU)、研究生级专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出接近人类水平的理解力和流利性,引领了一般智力的前沿。

       所有Claude 3[4]模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。

       以下是Claude 3模型与我们的同行在多个能力基准[1]上的比较:

三、近乎即时的结果

       Claude 3模型可以支持实时客户聊天、自动补全和数据提取任务,这些任务的响应必须是即时的。

       Haiku是市场上同类智能模型重速度最快、性价比最高的。它可以在不到三秒的时间内阅读一篇包含图表和图形的arXiv(约10k tokens)研究论文。我们预计在推出后性能将进一步提高。

       对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus与Claude 2和2.1的速度相似,但智能水平更高。

四、强大的视觉能力

       Claude 3模型拥有与其他领先模型想媲美的先进视觉能力。他们可以处理各种视觉格式,包括照片、图表、图表和技术图表。我们特别高兴能为我们的企业客户提供这种新的模式,其中一些客户的知识库有高达50%的信息以PDF、流程图或演示幻灯片等各种格式编码。

五、更少的拒绝

       以前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答接近系统安全边界的提示的可能性要小得多。如下所示,Claude 3模型显示出对请求的更细致理解,识别出真正的危害,并更少地拒绝无害的提示。

六、准确性提高

       各种规模的企业都依赖我们的模型为客户服务,因此我们的模型输出必须在规模上保持高精度。为了评估这一点,我们使用了一大组复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将反应分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了两倍,同时错误答案的水平也有所降低。

       除了产生更值得信赖的回答外,我们很快将在Claude 3模型中启用引用,以便他们就可以在参考材料中指向精确的句子来验证他们的答案。

七、长语境和近乎完美的回忆

       Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,这三种模型都能够接受超过100万个tokens的输入,我们可以将其提供给需要增强处理能力的精选客户。

       为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量了模型从大量数据中准确回忆信息的能力。我们通过每个提示使用30个随机针/问题对中的一个,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至可以识别出评估本身的局限性,即“针”句子似乎是由人类人工插入到原始文本中的。

八、负责任的设计

       我们开发了Claude 3系列模型,使其尽可能值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险,从错误信息和CSAM到生物滥用、选举干预和自主复制技能。我们继续开发宪法AI[5]等方法,以提高我们模型的安全性和透明度,并对我们的模型进行了调整,以缓解新模式可能引发的隐私问题。

       解决日益复杂的模型中的偏见是一项持续的努力,我们在这个新版本中取得了进展。如模型卡所示,根据问答偏差基准(BBQ)[6],Claude 3比我们以前的模型显示出更少的偏见。我们仍然致力于推进减少偏见的技术,并在我们的模型中促进更大的中立性,确保它们不会偏向任何特定的党派立场。

       尽管与以前的模型相比,Claude 3模型家族在生物知识、网络相关知识和自主性的关键指标上有所进步,但根据我们的负责任扩展政策[7],它仍处于人工智能安全级别2(ASL-2)。我们的红团队评估[8](根据我们的白宫承诺和2023年美国行政命令进行)得出的结论是,这些模型目前存在的灾难性风险可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估其接近ASL-3阈值的程度。更多的安全细节可在Claude 3模型卡[4]中获得。

九、更易于使用

       Claude 3模型更善于遵循复杂的、多步骤指令。他们特别善于遵守品牌声音和响应准则,并开发用户可以信任的客户体验。此外,Claude 3模型更擅长以JSON等格式生成流行的结构化输出,这使得在自然语言分类和情感分析等用例中指导Claude变得更简单。

十、模型详细信息

       Claude 3 Opus是我们最智能的模型,在高度复杂的任务中具有市场上最好的性能。它可以以非凡的流畅度和类人般的理解力浏览开放式提示和看不见的场景。Opus向我们展示了生成人工智能的外部极限。

       Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其是对于企业工作负载。与同类模型相比,它以更低的成本提供了强大的性能,并在大规模人工智能部署中实现了高耐久性。

       Claude 3 Haiku是我们速度最快、最紧凑的车型,具有近乎即时的响应能力。它以无与伦比的速度回答简单的查询和请求。用户将能够构建模仿人类互动的无缝人工智能体验。

十一、模型可用性

       Opus和Sonnet现在可以在我们的API中使用,该API现在普遍可用,使开发人员能够立即注册并开始使用这些模型,Haiku很快就会推出。Sonnet正在claude.ai上提供免费体验,claude Pro用户可以使用Opus。

       Sonnet今天也可以通过Amazon Bedrock和谷歌云的Vertex AI Model Garden进行私人预览,Opus和Haiku很快就会同时推出。

十二、更智能、更快、更安全

       我们不认为模型智能已经接近极限,我们计划在未来几个月内频繁发布Claude 3模型系列的更新。我们还很高兴能够发布一系列功能来增强我们模型的功能,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)和更高级的代理功能。

       当我们突破人工智能能力的极限时,我们同样致力于确保我们的安全防护措施与这些性能的飞跃保持同步。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方法。

       我们很高兴看到你用Claude 3创造了什么,希望你能给我们反馈,让Claude成为一个更有用的助手和创造性的伙伴。要开始与Claude合作,请访问anthropic.com/Claude。

参考文献:

[1] https://www.anthropic.com/news/claude-3-family

[2] https://www.anthropic.com/api#pricing

[3] https://www.anthropic.com/supported-countries

[4] https://www.anthropic.com/claude-3-model-card

[5] https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback

[6] https://aclanthology.org/2022.findings-acl.165/

[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy

[8] https://www.anthropic.com/news/red-teaming-language-models-to-reduce-harms-methods-scaling-behaviors-and-lessons-learned

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/430655.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能排班系统 【聚合服务开发】

文章目录 聚合服务创建聚合服务添加依赖启动类问题整合所有微服务的配置文件到聚合服务中文件结构 其他微服务修改网关服务修改启动 聚合服务 为什么需要开发聚合服务? 答:微服务项目中,往往会将系统的功能进行分析,然后进行服务…

【Python】进阶学习:pandas--describe()函数的使用介绍

🐍【Python】进阶学习:pandas——describe()函数的使用介绍 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&am…

JDK收费的各个版本(记录一下)

JDK收费的各个版本(记录一下) Java收费的安装包使用的时候要闭坑 从2019年1月份开始,Oracle JDK 开始对 Java SE 8 之后的版本开始进行商用收费,确切的说是 8u201/202 之后的版本。如果你用 Java 开发的功能如果是用作商业用途的…

uniapp iOS 真机调试

一、下载爱思助手 二、打开爱思助手,把你的 苹果手机 用原装数据线连接至电脑: 找到 工具箱 > 搜索IPA > 打开IAP签名 三、添加 IPA 文件 mac:finder 》应用程序 》右键 HbuilderX 》显示包内容 》HbuilderX / plugins/ lau…

【vue.js】文档解读【day 1】 | 模板语法2

如果阅读有疑问的话,欢迎评论或私信!! 本人会很热心的阐述自己的想法!谢谢!!! 文章目录 模板语法JavaScript表达式仅支持表达式调用函数?受限的全局访问 指令参数动态参数动态参数中…

LeetCode Python - 31.下一个排列

目录 题目答案运行结果 题目 整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。 例如,arr [1,2,3] ,以下这些都可以视作 arr 的排列:[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1] 。 整数数组的 下一个排列 是指其整数的下一个字典序更…

C语言-两数组元素互换

#include <stdio.h> #include <string.h>//两数组元素互换 void swap(int ch1[],int ch2[],int sz) {int i 0;char ch 0;for(i 0;i < sz;i){ch ch1[i];ch1[i] ch2[i];ch2[i] ch;} } //打印数组元素 void print(int ch[],int sz) {int i 0;for(i 0;i <…

04. Nginx入门-Nginx WEB模块

测试环境 此处使用的yum安装的Nginx路径。 此处域名均在本地配置hosts。 主配置文件 路径&#xff1a;/etc/nginx/nginx.conf user nginx; worker_processes auto;error_log /var/log/nginx/error.log notice; pid /var/run/nginx.pid;events {worker_connection…

Linux——自写一个简易的shell

目录 前言 一、打印提示信息 二、分割字符串 三、替换程序 前言 之前学习了很多进程相关的知识&#xff0c;包括环境变量、进程的创建与退出、进程等待、进程替换。现在可以用所学的作一个小总结&#xff0c;手撕一个shell解释器&#xff0c;大致的思路是先通过环境变量获…

【会议征稿通知】第二届数字化经济与管理科学国际学术会议(CDEMS 2024)

第二届数字化经济与管理科学国际学术会议&#xff08;CDEMS 2024&#xff09; 2024 2nd International Conference on Digital Economy and Management Science&#xff08;CDEMS 2024&#xff09; 2024年第二届数字经济与管理科学国际会议(CDEMS 2024) 定于2023年4月26-28日…

【Sql Server】存储过程的创建和使用事务,常见运用场景,以及目前现状

欢迎来到《小5讲堂》&#xff0c;大家好&#xff0c;我是全栈小5。 这是《Sql Server》系列文章&#xff0c;每篇文章将以博主理解的角度展开讲解&#xff0c; 特别是针对知识点的概念进行叙说&#xff0c;大部分文章将会对这些概念进行实际例子验证&#xff0c;以此达到加深对…

IPSEC---VPN

文章目录 目录 文章目录 一.TCP/IP 协议的缺点 二.IPsec诞生背景 IPsec可提供安全服务 三.IPsec协议簇 IPsec的两种工作模式 传输模式 隧道模式&#xff1a; IPsec的安全协议 AH 协议:鉴别头协议 ESP协议&#xff1a;封装安全载荷协议 AH与ESP对比 AHESP报文&#xff1a…

【笔记】【电子科大 离散数学】 3.谓词逻辑

谓词引入 因为含变量的语句&#xff08;例如x > 3&#xff09;不是命题&#xff0c;无法进行逻辑推理。 为了研究简单命题句子内部的逻辑关系&#xff0c;我们需要对简单命题进行分解&#xff0c;利用个体词&#xff0c;谓词和量词来描述它们&#xff0c;并研究个体与总体…

透明玻璃屏幕为什么那么贵

透明玻璃屏幕之所以价格较高&#xff0c;主要是由于以下几个方面的原因&#xff1a; 技术研发与创新&#xff1a;透明玻璃屏幕作为一种先进的显示技术&#xff0c;其研发和制造过程涉及到许多复杂的技术。这些技术的研发和创新需要投入大量的资金和时间。此外&#xff0c;透明玻…

推理判断01-程永乐-图形1

课程安排 出题形式 图形推理 1、位置规律 图形题目

供应商为啥要入驻政采网

供应商入驻政采网的原因主要有以下几点&#xff1a; 扩大企业知名度和商业机会&#xff1a;通过在政采网上的展示&#xff0c;可以让更多的政府机关、事业单位等了解企业的品牌和商品&#xff0c;提高企业的知名度&#xff0c;同时也会吸引更多的潜在客户&#xff0c;增加商业…

分布式数字身份:通往Web3.0世界的个人钥匙

数字化时代&#xff0c;个人身份已不再仅仅局限于传统形式&#xff0c;分布式数字身份&#xff08;Decentralized Identity&#xff0c;简称DID&#xff09;正崭露头角&#xff0c;它允许个人通过数字签名等加密技术&#xff0c;完全掌握和控制自己的身份信息。研究报告显示&am…

Chatgpt4.0国内使用网站公开。免费的都是假的。

Chatgpt简介 ChatGPT&#xff0c;这个名字自2022年底以来&#xff0c;在全球范围内引起了广泛的关注和讨论。它是由OpenAI公司开发的一款基于人工智能技术的语言模型&#xff0c;拥有惊人的自然语言处理和生成能力。ChatGPT不仅可以理解人类的语言&#xff0c;还能以类似人类的…

一本书讲透ChatGPT,实现从理论到实践的跨越!大模型技术工程师必读书籍【送书活动】

目录 前言一、内容简介二、作者简介三、专家推荐四、读者对象五、目录福利总结 前言 OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景&#xff0c;在多项专业和学术基准测试中表现出的智力水平&#xff0c;不仅接近甚至有时超越了人类的平均水平…

怎么将照片无损放大?三种简单方法分享

在数字影像领域&#xff0c;我们常常遇到需要放大图片却担心失真的困扰。如何在放大图片的同时保持清晰度和细节&#xff1f;让我们一起来探索三款强大的图片无损放大软件&#xff0c;助你轻松处理各种放大需求&#xff0c;释放画面细节&#xff0c;呈现令人惊喜的视觉效果&…