华为昇腾系列-jupyter安装torch_npu

使用背景

国产算力的兴起,异构算力成为各大厂商的选择,以摆脱对英伟达算力过大的依赖,保障算力安全。本文将会讲解如何使用昇腾算力卡来制作一个镜像,然后交给k8s进行算力调度,显示国产算力的真正应用落地。

安装步骤

首先需要选择一个基础镜像:

dwiwidianto/jupyter-arm  latest  5b66095058d5   23 months ago    1.37GB

这个镜像已经安装pytorch等底层环境。在此基础上安装昇腾的依赖:

启动一个容器:

 docker run -it -d -p 8888:8888 dwiwidianto/jupyter-arm:latest

进入容器:

docker exec -it 350e868489dc  bash

打开jupyter页面,测试环境,发现:

http://{ip}:8888/lab/tree/work/Untitled.ipynb

报错信息:

ImportError: libhccl.so: cannot open shared object file: No such file or directory. Please check that the cann package is installed. Please run 'source set_env.sh' in the CANN installation path.
[ERROR] 2024-09-25-09:29:53 (PID:70, Device:-1, RankID:-1) ERR00008 PTA resource not found

发现无法使用torch_npu,转到容器内安装torch_npu,注意torch_npu要和torch的版本保持一致。

查看当前的torch版本信息:

(torch3811) root@node1:~# pip show torch
Name: torch
Version: 2.3.1
Summary: Tensors and Dynamic neural networks in Python with strong GPU acceleration
Home-page: https://pytorch.org/
Author: PyTorch Team
Author-email: packages@pytorch.org
License: BSD-3
Location: /root/miniconda3/envs/torch3811/lib/python3.8/site-packages
Requires: filelock, fsspec, jinja2, networkx, sympy, typing-extensions
Required-by: accelerate, peft, torch-npu, torchvision, trl

安装对应的torch_npu:

pip install  torch==2.3.1 -i https://mirrors.aliyun.com/pypi/simple/

安装yaml插件:

pip install  pyyaml -i https://mirrors.aliyun.com/pypi/simple/

完成以上安装后,运行还是会报错。

安装昇腾CANN基础环境

注意以下环境有两种安装选择:

1、在宿主机上安装,在容器内进行引用,但这样会依赖于宿主机,对于k8s集群来说,每台机器上都要安装这些环境,好处是juputer-arm镜像体积较小;

2、在jupter容器中安装,这样容器独立,不依赖宿主机环境。

安装华为昇腾torch_npu插件:

安装torch_npu插件-安装PyTorch-安装深度学习框架-在昇腾设备上安装-安装开发环境-软件安装-CANN社区版8.0.RC1.alpha001开发文档-昇腾社区

安装CANN基础开发套件:

安装CANN软件包-安装CANN(物理机场景)-软件安装-CANN商用版8.0.RC2开发文档-昇腾社区

这里选择第一种安装方式,引用宿主机的环境。

在容器中挂在cann的目录,并执行如下命令,使其每次自动生效。

cann在本地宿主机安装好后,挂载路径:

/usr/local/Ascend/ascend-toolkit

echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh"  >>   ~/.bashrc

安装校验

进入容器对安装进行校验:

>>> import torch
>>> import torch_npu
>>> print(torch.__version__)
2.3.1
>>> print(torch_npu.__version__)
2.3.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/882957.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python篇】深入机器学习核心:XGBoost 从入门到实战

文章目录 XGBoost 完整学习指南:从零开始掌握梯度提升1. 前言2. 什么是XGBoost?2.1 梯度提升简介 3. 安装 XGBoost4. 数据准备4.1 加载数据4.2 数据集划分 5. XGBoost 基础操作5.1 转换为 DMatrix 格式5.2 设置参数5.3 模型训练5.4 预测 6. 模型评估7. 超…

网络安全前景大好,转行这些职位成了“香饽饽”

网络安全就业前景 大数据、人工智能、云计算、物联网、5G等新兴技术的高速发展,蒸蒸日上。但是随之也出现了许多问题,比如:政府单位、企业、个人信息泄露,网络安全问题日益严峻,网络空间安全建设刻不容缓。 网络安全…

真正厉害的项目经理都做到了这一点

在项目管理中,沟通是贯穿始终的关键要素,它能够打开团队协作的大门,推动项目稳步前行。 而那些真正厉害的项目经理,无一不是沟通的高手,他们通过清晰、有效且富有策略性的沟通,确保了项目的每一个环节都紧密…

小程序地图展示poi帖子点击可跳转

小程序地图展示poi帖子点击可跳转 是类似于小红书地图功能的需求 缺点 一个帖子只能有一个点击事件,不适合太复杂的功能,因为一个markers只有一个回调回调中只有markerId可以使用。 需求介绍 页面有地图入口,点开可打开地图界面地图上展…

x-cmd pkg | gotop - 简洁美观的终端监控工具,内存 CPU 网络 清晰可见

目录 简介用户首次快速实验指南友好的监控界面可定制化界面类似工具进一步探索 简介 gotop 是一个基于终端(TUI)的系统监视器。由 Andrew Gallant 于 2018 年 1 月发布。Andrew Gallant 在2020 年 8 月停止了对 gotop 的维护转由 Gregory Anders 维护和更新。 gotop 在终端使…

【ARM】armv8的虚拟化深度解读

Type-1 hypervisor Type-1虚拟化也叫做Bare metal, standalone, Type1 Type2 hypervisor Type-2虚拟化也叫做hosted, Type-2 VM和vCPU(虚拟机和虚拟cpu) 在一个VM(虚拟机)中有多个vCPU,多个vCPU可能属于同一个Vritual Processor。 EL2…

mysql如何快速编写单表查询语句

目录 背景生成sql语句 背景 我们在编写查询语句的时候,都提倡需要用到哪些字段就查哪些字段,这样有两个好处:1、可以增加程序运行效率,2、可以避免无关字段被暴露。那我们一个字段一个字段写就比较烦,有没有方法快速生…

Linux 进程3

进程地址空间 CPU读取数据都需要地址,在计算机中所有东西都是一种数据,包括我们的进程。 这是一个进程空间示意图,操作系统通过task_struct结构体链表来管理每一个进程,结构体里面有一个指针指向操作系统为进程开辟的一段空间&am…

共享单车轨迹数据分析:以厦门市共享单车数据为例(六)

副标题:.基于POI数据的站点功能混合度探究——以厦门市为例 为了保证数据时间尺度上的一致性,我们从互联网上下载了2020年的POI数据,POI数据来源于高德地图 API平台,包括名称、大小类、地理坐标等。并将高德地图 POI数据的火星坐标 系 GCJ-0…

目标检测系列(一)什么是目标检测

目录 一、相关名词解释 二、目标检测算法 三、目标检测模型 四、目标检测应用 五、目标检测数据集 六、目标检测常用标注工具 一、相关名词解释 关于图像识别的计算机视觉四大类任务: 分类(Classification):解决“是什么&…

[附源码]宠物领养管理系统+SpringBoot

今天带来一款优秀的项目:宠物领养管理系统源码 。 系统采用的流行的前后端分离结构,内含功能包括"管理端",“用户领养端”,“宠物管理”,“权限登录”等功能。 如果您有任何问题,也请联系小编&a…

nginx+keepalived健康检查案例详解(解决nginx出现故障却不能快速切换到备份服务器的问题)

文章目录 简介配置过程前置环境请看创建健康检查脚本结果测试 简介 在我们通过nginxkeepalived实现高可用后,会发现nginx出现故障的时候keepalived并不会将虚拟ip切换到备份服务器上其原理就是nginx和keepalived是两个独立的服务,Nginx的故障状态不会触…

机器学习_神经网络_深度学习

【神经网络——最易懂最清晰的一篇文章 - CSDN App】https://blog.csdn.net/illikang/article/details/82019945?type=blog&rId=82019945&refer=APP&source=weixin_45387165 参考以上资料,可对神经网络有初步了解。接下来可参考书籍等投身实际项目中使用。 书…

羽毛球场馆预约系统,便捷管理预约

全国羽毛球运动的热度不断上升,在健身行业中掀起了一股羽毛球热潮。同时羽毛球运动的风靡,也吸引了不少人入局,各种大大小小的羽毛球馆不断出现,为大众的羽毛球喜好提供了场地。 随着互联网的发展,羽毛球馆也开始向线…

thinkPHP 8.0.4 安装

windows 上安装最新版 thinkPHP8.0.4 下载phpStudy V8.1:小皮面板安装Composer2.x,Composer是PHP的一个依赖管理工具,主要功能包括依赖管理、版本控制、自动加载、扩展开发以及集成其他工具。安装 php8.0.2 4. 网站-管理-compose&#xff0c…

【MySql】在ubuntu下安装MySql数据库

目录 查看操作系统版本 添加 MySql APT源 访问下载页面并下载发布包 安装发布包 执行安装命令 从MySql APT源更新包信息 安装MySql 执行安装命令 查看MySql状态 开启自启动 登录MySql 查看操作系统版本 rootVM-24-2-ubuntu:~# lsb_release -a No LSB modules are ava…

[翟旭发射器]python-推导式-列表list表达式练习

# 简单的列表生成 numbers00[x for x in range(1,11)] print(numbers00) # 带条件的列表生成 numbers01[x for x in range(1,11) if x%20] print(numbers01) # 带表达式的列表生成 numbers10[x**2 for x in range(1,11)] print(numbers10) # 嵌套循环的列表生成 coordinates[(x…

Python连接Kafka收发数据等操作

目录 一、Kafka 二、发送端(生产者) 三、接收端(消费者) 四、其他操作 一、Kafka Apache Kafka 是一个开源流处理平台,由 LinkedIn 开发,并于 2011 年成为 Apache 软件基金会的一部分。Kafka 广泛用于构…

CentOS 安装 JAVA环境(JDK 1.8)

镜像选择 推荐国内镜像直接下载 清华镜像 https://mirrors.tuna.tsinghua.edu.cn/Adoptium 关于重命名 AdoptOpenJDK 镜像为 Adoptium 的通知 编程宝库 http://www.codebaoku.com/jdk/jdk-index.html 这个镜像站,包含Oracle JDK、OpenJDK、AdoptOpenJDK、阿里…

视频汇聚EasyCVR视频监控平台调取接口提示“认证过期”是什么原因?

视频汇聚EasyCVR视频监控平台,作为一款智能视频监控综合管理平台,凭借其强大的视频融合汇聚能力和灵活的视频能力,在各行各业的应用中发挥着越来越重要的作用。EasyCVR平台具备强大的拓展性和灵活性,支持多种视频流的外部分发&…