算法部署 | 使用ggml+C++部署Vision-Transformer算法_无依赖+轻量化+4bit+5bit+8bit量化

项目应用场景

- 面向 ViT 算法部署场景，项目采用 ggml 推理框架 + Cpp 来实现，支持低比特量化，如 4bit 量化、5bit 量化、8bit 量化。算法部署平台包括通用 CPU、AMD CPU 等。

项目效果

项目细节 ==> 具体参见项目 README.md

- (1) 模型转换，将 pytorch 模型转换为 GGUF

# install torch and timm
pip install torch timm

# list available models if needed; note that not all models are supported
python convert-pth-to-ggml.py --list

# convert the weights to gguf : vit tiny with patch size of 16 and an image 
# size of 384 pre-trained on ImageNet21k and fine-tuned on ImageNet1k
python convert-pth-to-ggml.py --model_name vit_tiny_patch16_384.augreg_in21k_ft_in1k --ftype 1

- (2) 工程编译

# build ggml and vit 
mkdir build && cd build
cmake .. && make -j4

# run inference
./bin/vit -t 4 -m ../ggml-model-f16.gguf -i ../assets/tench.jpg

- (3) 执行推理

usage: ./bin/vit [options]

options:
  -h, --help              show this help message and exit
  -s SEED, --seed SEED    RNG seed (default: -1)
  -t N, --threads N       number of threads to use during computation (default: 4)
  -m FNAME, --model FNAME model path (default: ../ggml-model-f16.bin)
  -i FNAME, --inp FNAME   input file (default: ../assets/tench.jpg)
  -k N, --topk N          top k classes to print (default: 5)
  -e FLOAT, --epsilon     epsilon (default: 0.000001)

- (4) 量化

usage: ./bin/quantize /path/to/ggml-model-f32.gguf /path/to/ggml-model-quantized.gguf type                              
  type = 2 - q4_0                                           
  type = 3 - q4_1                            
  type = 6 - q5_0                     
  type = 7 - q5_1                                                             
  type = 8 - q8_0

- (5) 执行推理

python vaihingen_test.py -c config/vaihingen/dcswin.py -o fig_results/vaihingen/dcswin --rgb -t 'd4'

项目获取

- https://download.csdn.net/download/weixin_42405819/89100807

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/553968.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

算法部署 | 使用ggml+C++部署Vision-Transformer算法_无依赖+轻量化+4bit+5bit+8bit量化

相关文章

亿级流量系统多级缓存架构9 -分布式事务 2

IDEA plugins 好用的插件集

Postman之页面简介 V9.31.0

【devops】阿里云挂载云盘 | 扩展系统硬盘 | 不重启服务器增加硬盘容量

12.基础乐理-半音、全音

计算机视觉——手机目标检测数据集

中医优势病种诊疗方案数据库

汽车视频智能剪辑解决方案，满足用户对高品质汽车视频的追求

C语言-输入数,存入数组,将奇数放置数组左侧,将偶数放置数组右侧

STM32应用开发——BH1750光照传感器详解

2024基于PHP开发的微信抖音小程序点餐系统开发源代码案例

STM32 CAN过滤器细节

具有图形化衬底与空气腔反射镜混合结构的深紫外Micro-LED阵列芯片

【安全】查杀linux挖矿病毒 kswapd0

java大作业（9）--实现银行基本操作（第一遍）

虚拟天空解决方案，创造出令人惊叹的换天效果

MediaStream使用webRtc多窗口传递

分布式搭载博客网站

大模型LLM架构--Decoder-Only、Encoder-Only、Encoder-Decoder

【学习】测试新项目该如何高效的展开测试？需要做哪些规划？