谷歌上新!最强开源模型Gemma 2,27B媲美LLaMA3 70B,挑战3140亿Grok-1

文章目录

    • LMSYS Chatbot Arena:开源模型性能第一
    • Gemma为什么这么强?
      • 架构创新
      • 对AI安全性的提升

A领域竞争激烈,GPT-4o 和 Claude 3.5 Sonnet 持续发力,谷歌迅速跟进。

谷歌为应对AI竞争所采取的策略:依靠 Gemini 闭源模型对抗 OpenAI,再通过 Gemma 模型牵制 Meta 的开源模型。Gemma 虽然采用了和 Gemini 同源的技术,但参数规模更为轻量。

在这里插入图片描述

6月28日,在I/O Connect大会上,谷歌发布新一代最强开源模型 Gemma 2,共有 90 亿参数(9B)和 270 亿参数(27B)两种大小。据谷歌介绍,与第一代 Gemma 模型相比,Gemma 2 的性能更高、推理效率更快,并且安全性也更有保障,可在单个NVIDIA H100或TPU主机上运行。

Gemma 2的核心亮点概括来说就是:参数虽小但性能极佳。

  1. 性能远超同同等规模模型。27B 模型在性能上能够与比其大两倍的模型相媲美,9B 模型也优于 Meta 的 Llama 3 8B 等相似尺寸的开源模型。

在这里插入图片描述

  1. Gemma 2 的突出优势在于其效率上的提升。27B 模型支持在单个Google Cloud TPU主机、英伟达的A100 80GB Tensor Core GPU或H100 Tensor Core GPU上以全精度运行推理,这能够极大地降低部署AI模型所需的硬件要求和成本。

  2. Gemma 2 优化了跨硬件的超快推理。比如在 Google AI Studio 中尝试全精度的Gemma 2,在CPU上使用量化版本 Gemma.cpp解锁本地性能,或通过 Hugging Face Transformers库在配备英伟达RTX或GeForce RTX的家用电脑上,均可使用。

目前,模型权重已经在HuggingFace上公开。
在这里插入图片描述

项目地址:https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

LMSYS Chatbot Arena:开源模型性能第一

Gemma 2 在LMSYS竞技场上取得了亮眼的成绩。

在总体评分上,Gemma 2 取到了开源模型最高分,而且用 27B 的参数「以小搏大」,超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型,而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。

在这里插入图片描述

新的排行类别「多轮对话」,包括两轮或多轮的测试,以衡量模型在更长时间内交互的能力。

在「多轮对话」排行榜上,Claude家族的排名显著提升,Gemma 2 的表现依旧强劲。Gemma 2 实现了2个名次的进步,进入前十行列,而且压了 Llama 3-70B-Instruct 一头。

在这里插入图片描述

Gemma为什么这么强?

架构创新

Gemma 2 在设计的架构上均有创新,旨在实现卓越的性能和提高推理效率。

Gemma 2 训练数据量大约是第一代的两倍。27B模型的训练数据有13万亿token,9B模型和2.6B模型则分别为8万亿、2万亿token。

基于Transformer解码器架构,与 Gemma 1 不同之处在于,Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比 Gemma 1 也使用了更深的网络结构。

在这里插入图片描述

图注:Gemma 2 关键模型参数

  • 局部滑动窗口和全局注意力:Gemma 2 交替使用局部滑动窗口和全局注意力,滑动窗口大小设置为4096 token,而全局注意力层的设置为8192 token。
  • Logit软上限:按照Gemini 1.5版,Gemma 对每个注意层和最终层的logit进行软封顶。通过将logits设置在一个合理的固定范围内,可以有效提升训练的稳定性,防止内容过长。
  • 使用RMSNorm进行前后归一化:为了使训练更加稳定,Gemma 2 运用了 RMSNorm 对每个转换层、注意层和反馈层的输入和输出进行归一化。这一步和Logit软上限都使得模型训练更稳定平滑,不易出现崩溃。
  • 分组查询注意力:GQA通过将算力集中于注意力分组内,提升数据处理速度,同时保持下游性能。
  • 知识蒸馏:能够训练出有竞争力性能的9B和27B模型,成功的知识蒸馏过程估计是最为重要的环节。

技术报告中也有Gemma 2的更多信息。

在这里插入图片描述

报告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

对AI安全性的提升

Gemma 2在实用高效的同时,也从安全角度做出了新举措。

谷歌致力于为开发人员和研究人员提供构建和部署AI所需的资源,提供了「负责任的生成式AI工具包」。最近,谷歌开源了LLM Comparator,可以帮助评估语言模型,并通过Python库进行比较和可视化。此外,谷歌正致力于为 Gemma 模型开源文本水印技术 SynthID。

在训练 Gemma 2 时,遵循了严格的内部安全流程,预训练数据都经过了严格的筛选,并根据全面指标进行了测试,以识别和减轻偏见和风险。谷歌还发布了大量与安全和代表性损害相关的公共基准测试结果。

在这里插入图片描述

Gemma 2目前可以在Google AI Studio中使用,在Gemma 27B下测试其全部性能,而无需硬件要求。
此外,为方便研发人员使用,Gemma 2还可通过Kaggle或谷歌Colab免费获取。

参考资料:
https://blog.google/technology/developers/google-gemma-2/
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/786020.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32F446RE实现多通道ADC转换功能实现(DMA)

目录 概述 1 软硬件介绍 1.1 软件版本 1.2 ADC引脚介绍 2 STM32Cube配置项目 2.1 配置基本参数 2.2 ADC通道配置 2.3 DMA通道配置 3 项目代码介绍 3.1 自生成代码 3.2 ADC-DMA初始化 3.3 测试函数 3.4 ADC1、ADC2、ADC3轮询采集数据存贮格式 4 测试 源代码下载地…

抖音本地生活火爆!普通人如何申请抖音本地生活服务商?

当前,随着抖音外卖的正式开放,抖音本地生活的热度也迎来了新的高潮,与抖音本地生活服务商怎么申请等话题相关的词条更是成为了多个创业者社群的热搜榜单的常客。 事实上,就抖音本地生活服务商怎么申请等问题本身而言,…

ITK-Canny边缘检测

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 Canny边缘检测原理 Canny边缘检测是一种多步骤的图像处理算法,用于提取图像中的边缘,被广泛认为是边缘检…

名企面试必问30题(二十七)——你能为公司带来什么呢?

回答一: “首先,我具备扎实的软件测试专业知识和丰富的实践经验。我能够运用各种测试方法和工具,确保公司产品的质量,降低产品上线后的风险。 其次,我善于发现问题和解决问题。在测试过程中,我不仅能找出软…

墨西哥:海外新闻稿媒体分发-海外pr发稿干货分享-大舍传媒

大舍传媒:海外新闻稿媒体分发平台 墨西哥观查者 (mexicoviewer) 墨西哥观查者是墨西哥一家知名的新闻媒体平台,该平台专注于报道墨西哥国内外的时事新闻、政治、经济、文化等多个领域的内容。其更新速度快,报道对象广泛,深受墨西…

快团团开团大团长和帮卖团长如何合并“收件人信息相同的订单”核销打印?

快团团开团大团长和帮卖团长如何合并“收件人信息相同的订单”核销打印? 一、背景 经营方式为线下自提等无需快递的团长,在核销打印订单时,需要将“收件人信息相同的订单”合并核销打印 二、操作说明 第一步,团长电脑端登陆快…

streamlit table转置显示

streamlit table转置显示,并且原始的表头放在最左侧 原始表格 代码 import streamlit as st import pandas as pd# 创建一个示例 DataFrame data {Column1: [1, 2, 3],Column2: [4, 5, 6],Column3: [7, 8, 9] } df pd.DataFrame(data)# 转置 DataFrame transposed_df df.T…

W外链怎么样,他们家的短网址免费的吗?

W外链作为短网址服务的一种,体现了短网址技术的现代发展趋势,它不仅提供了基础的网址缩短功能,还扩展了一系列高级特性和增值服务,以适应更广泛的市场需求。根据相关参考内容,W外链具有以下特点和优势: 短域…

Text Control 控件教程:在 .NET 中打印 MS Word DOCX 文档

虽然有用于创建 DOCX 文件的库(例如 Open XML SDK),但打印又是另一回事。打印 DOCX 文件的唯一方法是在 Microsoft Word 中打开它并手动打印。对于需要打印大量文档的 Web 应用程序或需要自动打印文档的服务器端应用程序来说,这不…

将直流电转换为交流电:逆变器的基本原理

什么是逆变器? 大多数电源设计都包括一个称为整流器的部分,该整流器将输入的交流波转换为不稳定的直流电压。但是,我们不能总是依赖来自建筑物主电源的交流输入到我们的系统中。 逆变器是一种将直流电 (DC) 转换为交…

前端八股文 跨域

前端跨域和常见解决方案 一、什么是跨域 同源策略是一个重要的安全策略,它用于限制一个origin的文档或者它加载的脚本如何能与另一个源的 资源进行交互。它能帮助阻隔恶意文档,减少可能被攻击的媒介。 有一点必须要注意:跨域并不是请求发不…

青岛外贸建站公司wordpress网站模板

电子数码wordpress网站模板 电子数码wordpress网站模板,做数码电子的生产厂家或外贸公司官方网站模板。 https://www.jianzhanpress.com/?p3161 金属不锈钢wordpress外贸主题 适合从事金属不锈钢生产、加式或做外贸的公司,简洁wordpress外贸主题模板…

【粉丝福利 | 第8期】值得收藏!推荐10个好用的数据血缘工具

⛳️ 写在前面参与规则!!! ✅参与方式:关注博主、点赞、收藏、评论,任意评论(每人最多评论三次) ⛳️本次送书1~4本【取决于阅读量,阅读量越多,送的越多】 目前市面上绝…

微信公众平台、公众号、小程序联动

欢迎来到我的博客,代码的世界里,每一行都是一个故事 🎏:你只管努力,剩下的交给时间 🏠 :小破站 微信公众平台、公众号、小程序联动 如何通过unionid获取到微信公众openid如何根据code获取微信公…

阿里云登陆Centos7

用自己电脑登陆Centos7太麻烦了,还要自己弄个虚拟机,一个电脑里面既有WIN又有LINUX,索性直接买个阿里云服务器,来学习Centos7。 购买 我是新用户,可以试用3个月,先用个3个月再说哈哈哈。 一系列操作之后…

记一次 .NET某酒业业务系统 崩溃分析

一:背景 1. 讲故事 前些天有位朋友找到我,说他的程序每次关闭时就会自动崩溃,一直找不到原因让我帮忙看一下怎么回事,这位朋友应该是第二次找我了,分析了下 dump 还是挺经典的,拿出来给大家分享一下吧。 …

如何在Vue中实现拖拽功能?

Vue.js是一款流行的JavaScript框架,用于构建用户界面。其中一个常见的需求是在Vue中实现拖拽功能,让用户可以通过拖拽元素来进行交互。今天,我们就来学习如何在Vue中实现这一功能。 首先,我们需要明白拖拽功能的基本原理&#xf…

51单片机嵌入式开发:6、 STC89C52RC 定时器0-1-2-看门狗 操作

STC89C52RC 定时器0-1-2-看门狗 操作 1 定时器介绍1.1 定时器概述1.2 课程思路 2 定时器类型2.1 定时器0、12.2 定时器22.3 看门狗定时器2.4 中断介绍 3 定时器操作3.1 定时器0操作3.2 定时器1操作3.3 定时器2操作3.4 看门狗定时器操作 4 定时器总结 1 定时器介绍 1.1 定时器概…

layui项目中的layui.define、layui.config以及layui.use的使用

第一步:创建一个layuiTest项目,结构如下 第二步:新建一个test.js,利用layui.define定义一个模块test,并向外暴露该模块,该模块里面有两个方法method1和method2. 第三步:新建一个test.html,在该页面引入layui.js&#x…

Loadlibrary failed with error 87:参数错误

问题描述: win10 系统在安装 Photoshop 2022 版后,点击桌面图标提示:Loadlibrary failed with error 87:参数错误,反复出现,反复确定,直至软件关闭。 解决方法: 1. 找到 C:\Window…