在亚马逊云科技上利用Graviton4代芯片构建高性能Java应用(上篇)

简介

在AI迅猛发展的时代,芯片算力对于模型性能起到了至关重要的作用。一款能够同时兼具高性能和低成本的芯片,能够帮助开发者快速构建性能稳定的生成式AI应用,同时降低开发成本。今天小李哥将介绍亚马逊推出的4代高性能计算处理器Gravition,带大家了解如何利用Graviton芯片为Java生成式AI应用提高性能、优化成本。

本篇文章将介绍如何在云平台上创建Graviton芯片服务器,并在Graviton芯片服务器上安装Java应用,并对比Java应用在Graviton和Intel芯片服务器上的运行性能。在本系列下篇中,我们将利用Graviton芯片部署Java容器应用,比较不同芯片服务器上的容器应用性能,并查看、分析测试结果。

方案所需基础知识

什么是Graviton4代芯片?

Amazon Graviton 4 处理器由亚马逊云科技定制设计的第四代高性能、低功耗处理器,旨在为 Amazon 计算服务中的工作负载提供最佳性价比,相对于传统计算类工作负载(Graviton2)提供高达40%的性价比提升。与常见的 x86 处理器相比,基于 Graviton 4 的 EC2 实例具有以下特性:

  • 每个 vCPU 独占一个物理核心的计算资源,而非通过 SMT 技术获得一个线程;
  • 每个 vCPU 拥有更大的 L1/L2 Cache 容量;
  • 更快的内存带宽和更低的内存延时。
  • Graviton 处理器支持众多 Linux 操作系统,包括 Red Hat Enterprise Linux、SUSE 和 Ubuntu 等。
  • Graviton 兼容众多云原生服务和开源软件,兼容亚马逊云科技上的开发工具,数据库,容器,分析,无服务器等服务,拥有丰富的应用生态。

最新发布的第 4 代 Graviton 处理器(基于 Arm Neoverse-V2,ARMv9.0-a);主频提升,L2 缓存翻倍,L3 缓存容量提升,支持 SVE2; 内存:12*DDR5-5600(前代采用 8*DDR5-4800),内存带宽提升 75%;

本实践包括的内容

1. 在亚马逊云科技上分别创建x86芯片以及Graviton4芯片的服务器

2. 在服务器中启动并运行java程序

3. 对比Java程序在两种芯片服务器上的运行性能

项目实操步骤 

创建Graviton4芯片服务器

1. 首先我们进入亚马逊云科技控制台,进入EC2服务

2. 点击Launch Instance创建一台EC2服务器

3. 在芯片架构处,我们选择实例类型为r8g.xlarge(4vCPU和32GiB内存)实例用于创建Graviton4芯片服务器。另外我们还需要创建一个r6i.xlarge实例,实例用于创建Intel x86芯片服务器。

4.创建SSH登录秘钥对

5. 为密钥对命名,并选择pem类型,点击右下角创建。

6. 运行以下命令为密钥对授权,用于SSH登录服务器

chmod 400 test-only.pem

7. 为EC2服务器添加VPC和子网配置

8. 选择配置防火墙安全组,在防火墙入站规则中添加允许SSH从0.0.0.0/0 IP范围访问

9.并选择服务器存储,我们选择gp3类型的80GiB的磁盘存储。

通过SSH连接进入服务器

10. 通过以下命令SSH登录到EC2服务器中,将创建好的EC2服务器IP地址替换到命令中“EC2实例公网 IP 地址”字段

ssh -i /path/key-pair-name.pem ec2-user@EC2实例公网 IP 地址

开始部署Java应用程序 

11. 通过 SSH 进入Graviton4芯片/intel芯片服务器,通过下面命令运行 Demo 程序。在下面的命令中我们安装了Java11版本,并设置系统语言可现实中文,下载Java应用的安装包和启动脚本,最后运行该程序。

## 安装 JDK
sudo su - root
yum install java-11-amazon-corretto -y

## 设置系统语言环境可显示中文
localedef -i zh_CN -f UTF-8 zh_CN.UTF-8
export LANG=zh_CN.UTF-8
export LC_CTYPE=zh_CN.UTF-8

## 下载 Demo 程序(Java 语言的 Jar 包)和运行脚本
wget https://github.com/eric-yq/ec2-test-suite/raw/main/blowfish-demo/unitTest-1.0-SNAPSHOT.jar
wget https://github.com/eric-yq/ec2-test-suite/raw/main/blowfish-demo/run.sh

## 运行脚本并等待实验完成, $(nproc) 表示 Demo 程序并行运行的数量和实例 vCPU 数相同。
bash run.sh $(nproc)

12. 我们可以得到下方左侧的输出,显示程序启动在Graviton4服务器上总耗时为13.536秒,在Intel芯片上总耗时为15.198秒。

13. 我们重新配置Java应用程序的进程启动Demo数量(1-4,对应服务器的1-4个vCPU),分别记录启动1-4个Demo数量的对应启动时间,得到以下表格。

IDDemo 并行数CPU 利用率c7g.xlarge 平均完成时间 c7g.xlargec6i.xlarge 平均完成时间
1125%12.811.0
2250%12.811.4
3375%13.113.4
44100%13.515.2

 14. 我们根据以上数据绘制折线趋势图,我们观察到对于相同大小的 X86 和 Graviton服务器,随着并行进程数量上升,在Demo并行数量大于2时,Graviton4芯片服务器的性能大幅上升,程序启动时间减少。

总结结论

15. 根据上述数据,我们可以得到以下结论:

  • 本实验在相同大小(4 vCPU)的不同X86 和 Graviton4芯片实例,都可以顺利运行相同的Java程序,说明使用Java语言开发的程序无需任何修改即可直接在Graviton服务器上运行,Graviton的可移植性和兼容性都很好。
  • Graviton实例的每个vCPU即为一个物理核心,X86实例的每个vCPU是一个物理核心通过 SMT技术虚拟出的一个超线程
  • 当并行Java进程数目为1和 2(分别对应 CPU 利用率 25% 和 50%)时,X86服务器性能(单核)较好,完成时间较短。
  • 当并行Java进程数目上升为 3 和 4 时(分别对应 CPU 利用率 75% 和 100%)时,X86 服务器性能衰减严重,应用启动时间大幅上升。与之行程对比的是,Graviton4服务器性能相对稳定,并明显优于 X86服务器。

以上就是利用亚马逊云科技自研Graviton4代芯片构建高性能、低成本的Java应用程序的上篇内容。欢迎大家关注小李哥和我的亚马逊云科技AI服务深入调研系列,不要错过未来更多国际前沿的AWS云开发/云架构方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/873199.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用vscode上传git远程仓库流程(Gitee)

目录 参考附件 git远程仓库上传流程 1,先将文件夹用VScode打开 2,第一次进入要初始化一下仓库 3,通过这个(.gitignore)可以把一些不重要的文件不显示 注:(.gitignore中)可屏蔽…

如何将代理IP设置为ISP:详细指南

在当今互联网时代,代理IP已经成为许多用户保护隐私和提升网络体验的重要工具。而ISP(Internet Service Provider)的代理IP更是因为其高质量和稳定性备受青睐。本文将详细介绍如何将代理IP设置为ISP,让你在网络世界中享受更优质的上…

RISC-V (十一)软件定时器

主要的思想:硬件定时器是由硬件的定时器设备触发的。软件定时器在硬件定时器的基础上由软件控制实现多个定时器的效果。主要的思路是在trap_handler函数中加入软件代码,使其在设定的时间点 去执行想要执行的功能函数。 定时器的分类 硬件定时器&#xf…

计算机网络(二) —— 网络编程套接字

目录 一,认识端口号 1.1 背景 1.2 端口号是什么 1.3 三个问题 二,认识Tcp协议和Udp协议 三,网络字节序 四,socket编程接口 4.1 socket常见API 4.2 sockaddr结构 一,认识端口号 1.1 背景 问题:在进…

网络安全运维培训一般多少钱

在当今数字化时代,网络安全已成为企业和个人关注的焦点。而网络安全运维作为保障网络安全的重要环节,其专业人才的需求也日益增长。许多人都对网络安全运维培训感兴趣,那么,网络安全运维培训一般多少钱呢? 一、影响网络安全运维培…

算法训练营——day4螺旋矩阵

1 螺旋矩阵II-力扣59(中等) 1.1 题目:螺旋矩阵II 给你一个正整数 n ,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1: 输入:n 3 输出&…

算法学习:滑动窗口

题目 滑动窗口 滑动窗口的题目在解决统计连续带特殊要求的元素串问题时作用巨大。逃离仅仅只是套路学习的黑洞,我认为这种方法在无序的统计中,找到了有序的切入点。初看题目时,可以想到的统计方法有很多,但实现在计算机上则必须有…

贝锐蒲公英远程视频监控方案:4G入网无需公网IP,跨品牌统一管理

在部署视频监控并实现集中监看时,常常会遇到各种挑战。比如:部分监控点位布线困难、无法接入有线宽带,或是没有固定公网IP,难以实现远程集中监看;已有网络质量差,传输延迟大、丢包率高,远程实时…

【王树森】BERT:预训练Transformer模型(个人向笔记)

前言 BERT:Bidirectional Encoder Representations from TransformerBERT是用来预训练Transformer模型的encoder的本节课只讲述主要思想BERT用两个主要思想来训练Transformer的encoder网络:①随机遮挡单词,让encoder根据上下文来预测被遮挡的…

C语言蓝桥杯

一、语言基础 竞赛常用库函数 最值查询 min_element和max_element在vector(迭代器的使用) nth_element函数的使用 例题lanqiao OJ 497成绩分析 第一种用min_element和max_element函数的写法 第二种用min和max的写法 二分查找 二分查找只能对数组操作 binary_search函数&…

win12R2安装.NET Framework 3.5

一丶安装原因 因此插件的缺失, 有些软件或系统不支持安装. 二丶安装步骤 1丶下载.NET Framework 3.5 点击插件下载, 提取码: 1995, 下载完成之后解压到想要安装的位置上. 2丶打开 服务器管理器 3丶点击: 管理 -> 添加角色和功能 4丶点击下一步到服务器角色, 选择web服…

Android应用开发项目式教程——序

Android技术 Android是重要的客户端技术,因其开源开放的特点,Android在其初期就迅速成长为智能手机的主流操作系统,近年来更进一步成为智能电视、智能车载终端等智能设备的主流操作系统,其活跃设备数量已经超过30亿台&#xff0c…

通用内存快照裁剪压缩库Tailor介绍及源码分析(一)

背景 我们知道内存快照是治理 OOM 问题及其他类型的内存问题的重要数据源,内存快照中保存了进程虚拟机的完整的堆内存数据,很多时候也是调查其他类型异常的重要参考。但是dump出来的堆转储文件.hprof往往很大,以 LargeHeap 应用为例&#xf…

吐血整理 ChatGPT 3.5/4.0 新手使用手册~ 【2024.09.04 更新】

以前我也是通过官网使用,但是经常被封号,就非常不方便,后来有朋友推荐国内工具,用了一阵之后,发现:稳定方便,用着也挺好的。 最新的 GPT-4o、4o mini,可搭配使用~ 1、 最新模型科普&…

XGBoost算法-上

简单解释一下xgboost这个模型 xg是一个非常强大,非常受欢迎的机器学习模型,其中最大的特色就是boosting(改进、推进),怎么改进呢?就是xgboost这个算法,它会先建立一颗简单的决策树,…

虚拟机ubuntu配置opencv和opencv_contrib

前期准备 1.下载opencv和opencv_contrib源码 opencv-4.6.0:https://opencv.org/releases/ opencv_contrib-4.6.0:https://github.com/opencv/opencv_contrib 在ubuntu直接下载或者在window上下好传到虚拟机里都可以 自己找个地方把他们解压&#xf…

【Python篇】PyQt5 超详细教程——由入门到精通(终篇)

文章目录 PyQt5超详细教程前言第9部分:菜单栏、工具栏与状态栏9.1 什么是菜单栏、工具栏和状态栏9.2 创建一个简单的菜单栏示例 1:创建带有菜单栏的应用程序代码详解: 9.3 创建工具栏示例 2:创建带有工具栏的应用程序代码详解&…

Banana Pi BPI-SM9 AI 计算模组采用算能科技BM1688芯片方案设计

产品概述 香蕉派 Banana Pi BPI-SM9 16-ENC-A3 深度学习计算模组搭载算能科技高集成度处理器 BM1688,功耗低、算力强、接口丰富、兼容性好。支持INT4/INT8/FP16/BF16/FP32混合精度计算,可支持 16 路高清视频实时分析,灵活应对图像、语音、自…

多个路由器级联实现子网的方式

好久没写博客啦,最近搬家,换了网络环境,简单记录一下网络配置。 拓扑图就不画了,光猫 - > 华为TC7102路由 -> 华为AX2 Pro路由 -> 各种设备,简单表示就是这样。 原因是第一个路由是房东的,我希望自…

宝塔部署Vue项目解决跨域问题

一、前言 使用宝塔面板部署前端后端项目相比用命令行进行部署要简单许多,宝塔的可视化操作对那些对Linux不熟悉的人很友好。使用宝塔部署SpringBoot后端项目和Vue前端项目的方法如下: 1、视频教程 2、文字教程1 3、文字教程2 以上的教程完全可以按照步骤…