Segment Anything CSharp| 在 C# 中通过 OpenVINO™ 部署 SAM 模型实现万物分割

​ OpenVINO™ C# API 是一个 OpenVINO™ 的 .Net wrapper,应用最新的 OpenVINO™ 库开发,通过 OpenVINO™ C API 实现 .Net 对 OpenVINO™ Runtime 调用.Segment Anything Model(SAM)是一个基于Transformer的深度学习模型,主要应用于图像分割领域。在本文中,我们将演示如何在C#中使用OpenVINO™部署 Segment Anything Model 实现任意目标分割。

  OpenVINO™ C# API项目链接:

https://github.com/guojin-yan/OpenVINO-CSharp-API.git

  使用 OpenVINO™ C# API 部署 Segment Anything Model 全部源码:

https://github.com/guojin-yan/segment-anything-csharp/blob/master/src/segment_anything_openvino/Program.cs

文章目录

    • 1. 前言
      • 1.1 OpenVINO™ C# API
      • 1.2 Segment Anything Model (SAM)
    • 2. 模型下载与转换
        • 2.1 安装环境
        • 2.2 下载模型
        • 2.3 模型转换
    • 3. 模型部署代码
      • 3.1 编码器模型部署代码
      • 3.2 解码器模型部署代码
    • 4. 模型部署测试代码
    • 5. 预测效果
    • 6. 总结

1. 前言

1.1 OpenVINO™ C# API

  英特尔发行版 OpenVINO™ 工具套件基于 oneAPI 而开发,可以加快高性能计算机视觉和深度学习视觉应用开发速度工具套件,适用于从边缘到云的各种英特尔平台上,帮助用户更快地将更准确的真实世界结果部署到生产系统中。通过简化的开发工作流程,OpenVINO™ 可赋能开发者在现实世界中部署高性能应用程序和算法。

  2024年4月25日,英特尔发布了开源 OpenVINO™ 2024.1 工具包,用于在各种硬件上优化和部署人工智能推理。更新了更多的 Gen AI 覆盖范围和框架集成,以最大限度地减少代码更改。同时提供了更广泛的 LLM 模型支持和更多的模型压缩技术。通过压缩嵌入的额外优化减少了 LLM 编译时间,改进了采用英特尔®高级矩阵扩展 (Intel® AMX) 的第 4 代和第 5 代英特尔®至强®处理器上 LLM 的第 1 令牌性能。通过对英特尔®锐炫™ GPU 的 oneDNN、INT4 和 INT8 支持,实现更好的 LLM 压缩和改进的性能。最后实现了更高的可移植性和性能,可在边缘、云端或本地运行 AI。

  OpenVINO™ C# API 是一个 OpenVINO™ 的 .Net wrapper,应用最新的 OpenVINO™ 库开发,通过 OpenVINO™ C API 实现 .Net 对 OpenVINO™ Runtime 调用,使用习惯与 OpenVINO™ C++ API 一致。OpenVINO™ C# API 由于是基于 OpenVINO™ 开发,所支持的平台与 OpenVINO™ 完全一致,具体信息可以参考 OpenVINO™。通过使用 OpenVINO™ C# API,可以在 .NET、.NET Framework等框架下使用 C# 语言实现深度学习模型在指定平台推理加速。

1.2 Segment Anything Model (SAM)

  Segment Anything Model(SAM)是一个基于Transformer的深度学习模型,主要应用于图像分割领域。SAM采用了Transformer架构,主要由编码器和解码器组成,编码器负责将输入的图像信息编码成上下文向量,而解码器则将上下文向量转化为具体的分割输出。

image-20240605211732575

  SAM的核心思想是“自适应分割”,即能够根据不同图像或视频中的对象,自动学习如何对其进行精确分割;并且具有零样本迁移到其他任务中的能力,这意味着它可以对训练过程中未曾遇到过的物体和图像类型进行分割;SAM被视为视觉领域的通用大模型,其泛化能力强,可以涵盖广泛的用例,并且可以在新的图像领域上即时应用,无需额外的训练。

image-20240605211811813

  总的来说,Segment Anything Model(SAM)是一个先进的图像分割模型,以其强大的自适应分割能力、零样本迁移能力和通用性而著称。然而,在实际应用中仍需注意其泛化能力和域适应方面的挑战。

2. 模型下载与转换

2.1 安装环境

  该代码要求“python>=3.8”,以及“pytorch>=1.7”和“torchvision>=0.8”。请按照此处的说明操作(https://pytorch.org/get-started/locally/)以安装PyTorch和TorchVision依赖项。

pip install git+https://github.com/facebookresearch/segment-anything.git

  然后安装一些其他的依赖项:

pip install opencv-python pycocotools matplotlib onnxruntime onnx
2.2 下载模型

  此处直接下载官方训练好的模型:

wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth
2.3 模型转换

  此处模型转换使用Python实现,上面我们已经安装好了模型转换环境,下面首先导入所需要的程序包,如下所示:

import torch
from segment_anything import sam_model_registry
from segment_anything.utils.onnx import SamOnnxModel

  然后导出编码器模型,编码器负责将输入的图像信息编码成上下文向量,因此其模型输入输出结构相对较为简单,转换代码如下所示:

torch.onnx.export(
    f="vit_b_encoder.onnx",
    model=sam.image_encoder,
    args=torch.randn(1, 3, 1024, 1024),
    input_names=["images"],
    output_names=["embeddings"],
    export_params=True)

  接下来转换解码器模型,解码器则将上下文向量转化为具体的分割输出,因此在输入时需要指定分割的位置信息,所以其输入比较多,,分别为:

  • **image_embeddings:**编码器模型对图片编码后的输出内容,在使用时直接将编码器模型运行后的输出加载到该模型输入节点即可。

  • **point_coords:**输入的提示坐标或位置,对应点输入和框输入。方框使用两个点进行编码,一个用于左上角,另一个用于右下角。坐标必须已转换为长边1024。具有长度为1的批索引。

  • **point_labels:**稀疏输入提示的标签,0是负输入点,1是正输入点,2是输入框左上角,3是输入框右下角,-1是填充点。如果没有框输入,则应连接标签为-1且坐标为(0.0,0.0)的单个填充点。

  • **mask_input:**形状为1x1x256x256的模型的掩码输入,如果没有掩码输入,也必须提供全为0的输入。

  • **has_mask_input:**掩码输入的指示符。1表示掩码输入,0表示没有掩码输入。

  • **orig_im_size:**表示原始图片形状大小,输入格式(H,W)。

  模型转换代码如下所示:

checkpoint = "sam_vit_h_4b8939.pth"
model_type = "vit_h"
sam = sam_model_registry[model_type](checkpoint=checkpoint)
onnx_model = SamOnnxModel(sam, return_single_mask=True)
embed_dim = sam.prompt_encoder.embed_dim
embed_size = sam.prompt_encoder.image_embedding_size
mask_input_size = [4 * x for x in embed_size]
dummy_inputs = {
    "image_embeddings": torch.randn(1, embed_dim, *embed_size, dtype=torch.float),
    "point_coords": torch.randint(low=0, high=1024, size=(1, 5, 2), dtype=torch.float),
    "point_labels": torch.randint(low=0, high=4, size=(1, 5), dtype=torch.float),
    "mask_input": torch.randn(1, 1, *mask_input_size, dtype=torch.float),
    "has_mask_input": torch.tensor([1], dtype=torch.float),
    "orig_im_size": torch.tensor([1500, 2250], dtype=torch.float),
}
output_names = ["masks", "iou_predictions", "low_res_masks"]
torch.onnx.export(
    f="vit_b_decoder.onnx",
    model=onnx_model,
    args=tuple(dummy_inputs.values()),
    input_names=list(dummy_inputs.keys()),
    output_names=output_names,
    dynamic_axes={
        "point_coords": {1: "num_points"},
        "point_labels": {1: "num_points"}
    },
    export_params=True,
    opset_version=17,
    do_constant_folding=True
)

3. 模型部署代码

3.1 编码器模型部署代码

static float[] ImageEmbeddings(Mat img, string model_path)
{
    Core core = new Core();
    Model model = core.read_model(model_path); 
    OvExtensions.printf_model_info(model);
    CompiledModel compiled = core.compile_model(model, "CPU");
    Console.WriteLine("Compile Model Sucessfully!");
    InferRequest request = compiled.create_infer_request();
    Mat mat = new Mat();
    Cv2.CvtColor(img, mat, ColorConversionCodes.BGR2RGB);
    float factor = 0;
    mat = Resize.letterbox_img(mat, 1024, out factor);
    mat = Normalize.run(mat, new float[] { 123.675f, 116.28f, 103.53f }, new float[] { 1.0f / 58.395f, 1.0f / 57.12f, 1.0f / 57.375f }, false);
    Tensor input_tensor = request.get_input_tensor();
    float[] input_data = Permute.run(mat);
    input_tensor.set_data(input_data);
    Stopwatch sw = new Stopwatch();
    sw.Start();
    request.infer();
    sw.Stop();
    Console.WriteLine("Inference time: " + sw.ElapsedMilliseconds);
    Tensor output_tensor = request.get_output_tensor();
    Console.WriteLine(output_tensor.get_shape().to_string());
    return output_tensor.get_data<float>((int)output_tensor.get_size());
}

3.2 解码器模型部署代码

static byte[] ImageDecodings(string model_path, float[] image_embeddings, float[] onnx_coord, 
    float[] onnx_label, float[] onnx_mask_input, float[] onnx_has_mask_input, float[] img_size) 
{
    Core core = new Core();
    Model model = core.read_model(model_path);
    OvExtensions.printf_model_info(model);
    CompiledModel compiled = core.compile_model(model, "CPU");
    Console.WriteLine("Compile Model Sucessfully!");
    InferRequest request = compiled.create_infer_request();
    Tensor tensor1 = request.get_tensor("image_embeddings");
    tensor1.set_data(image_embeddings);
    Tensor tensor2 = request.get_tensor("point_coords");
    tensor2.set_shape(new Shape(1, 3, 2));
    tensor2.set_data(onnx_coord);
    Tensor tensor3 = request.get_tensor("point_labels");
    tensor3.set_shape(new Shape(1, 3));
    tensor3.set_data(onnx_label);
    Tensor tensor4 = request.get_tensor("mask_input");
    tensor4.set_data(onnx_mask_input);
    Tensor tensor5 = request.get_tensor("has_mask_input");
    tensor5.set_data(onnx_has_mask_input);
    Tensor tensor6 = request.get_tensor("orig_im_size");
    tensor6.set_data(img_size);
    Stopwatch sw = new Stopwatch();
    sw.Start();
    request.infer();
    sw.Stop();
    Console.WriteLine("Inference time: " + sw.ElapsedMilliseconds);
    Tensor output_tensor = request.get_tensor("masks");
    float[] mask_data = output_tensor.get_data<float>((int)output_tensor.get_size());
    byte[] mask_data_byte = new byte[mask_data.Length];
    for (int i = 0; i < mask_data.Length; i++)
    {
        mask_data_byte[i] = (byte)(mask_data[i] > 0 ? 255 : 0);
    }
    return mask_data_byte;
}

4. 模型部署测试代码

下面时模型部署案例测试代码,通过调用

static void Main(string[] args)
{
    string embedding_model = "./../../../../../model/vit_b_encoder/vit_b_encoder.onnx";
    string decoding_model = "./../../../../../model/vit_b_decoder.onnx";
    string image_path = "./../../../../../images/dog.jpg";
    string image_embedding_path = "./../../../../../images/dog.bin";

    Mat img = Cv2.ImRead(image_path);
    float factor = 0;
    Resize.letterbox_img(img, 1024, out factor);
    if (!File.Exists(image_embedding_path)) 
    {
        float[] data = ImageEmbeddings(img, embedding_model);
        SaveToFile(data, image_embedding_path);
    }


    float[] image_embedding_data = LoadFromFile(image_embedding_path);
    float[] onnx_coord = new float[6] { 600f / factor, 200f / factor, 480 / factor, 130 / factor, (480 + 190)/factor, (130 + 140)/factor };
    float[] onnx_label = new float[3] { 1f, 2f, 3f };
    float[] onnx_mask_input = new float[256 * 256];
    float[] onnx_has_mask_input = new float[1] { 0 };
    float[] img_size = new float[2] { img.Height, img.Width };
    byte[] result = ImageDecodings(decoding_model, image_embedding_data, onnx_coord, onnx_label, onnx_mask_input, onnx_has_mask_input, img_size);


    Cv2.Rectangle(img, new Rect(600, 200, 20, 20), new Scalar(0, 0, 255), -1);
    Cv2.Rectangle(img, new Rect(480, 130, 190, 140), new Scalar(0, 255, 255), 2);
    Mat mask = new Mat(img.Rows, img.Cols, MatType.CV_8UC1, result);
    Mat rgb_mask = Mat.Zeros(new Size(img.Cols, img.Rows), MatType.CV_8UC3);
    Cv2.Add(rgb_mask, new Scalar(255.0, 144.0, 37.0, 0.6), rgb_mask, mask);
    Mat new_mat = new Mat();
    Cv2.AddWeighted(img, 0.5, rgb_mask, 0.5, 0.0, new_mat);
    Cv2.ImShow("mask", new_mat);
    Cv2.WaitKey(0);
}

5. 预测效果

  下面展示了几个预测效果情况:

  该图在输入时指定了两个标记点,同时标注在了车身和车窗上,那么就会根据所标记的点提取,两个点都是在车上,因此最后分割出来的结果是车身。

image-20240605182018825

  与上一张图片不同的时,在这张图片中我们只标记了车窗位置,因此分割结果只分割了车窗位置。

image-20240605184207052

  同样地在这张图片中我们标记了狗狗,因此他最终分割出来了狗狗的位置。

image-20240605185354400

  下面我们对图片中的饭盆进行分割,我们标记了饭盆,并输入了一个范围框,这样模型在这个范围里分割出了饭盆。

6. 总结

​ 在该项目中,我们演示了如何在C#中使用OpenVINO™部署 Segment Anything Model 实现任意目标分割。最后如果各位开发者在使用中有任何问题,以及对该接口开发有任何建议,欢迎大家与我联系。

个人账号 - 2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/694282.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

poi4.1导出excel支持xlx,xlsx格式,解决导出execl提示‘文件已经被损坏,无法打开‘

目录 一.maven jar包引入 二.xls格式 三.xlsx格式 一.maven jar包引入 注意&#xff0c;如果要用到xlsx格式&#xff0c;需要导入poi-ooxml <!-- https://mvnrepository.com/artifact/org.apache.poi/poi fx--><!-- 使用xls格式时,只要导入poi-version-yyyymmdd.ja…

Llama模型家族之Stanford NLP ReFT源代码探索 (四)Pyvene论文学习

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;一&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;二&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;三&#xff09; 基于 LlaMA…

通过双模式对抗提示越狱视觉语言模型

最近&#xff0c;将视觉整合到大型语言模型&#xff08;LLMs&#xff09;中的兴趣显著增加&#xff0c;催生了大型视觉语言模型&#xff08;LVLMs&#xff09;。这些模型结合了视觉和文本信息&#xff0c;如LLaVA和Gemini&#xff0c;已经在包括图像字幕、视觉问题回答和图像检…

「动态规划」打家劫舍的变形题,你会做吗?

213. 打家劫舍 IIhttps://leetcode.cn/problems/house-robber-ii/description/ 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋&#xff0c;每间房内都藏有一定的现金。这个地方所有的房屋都围成一圈&#xff0c;这意味着第一个房屋和最后一个房屋是紧挨着的。同时&#x…

下载安装Thonny并烧录MicroPython固件至ESP32

Thonny介绍 一、Thonny的基本特点 面向初学者&#xff1a;Thonny的设计初衷是为了帮助Python初学者更轻松、更快速地入门编程。它提供了直观易懂的用户界面和丰富的功能&#xff0c;降低了编程的门槛。轻量级&#xff1a;作为一款轻量级的IDE&#xff0c;Thonny不会占用过多的…

中国各省份简称的命名根据是什么?省份简称顺口溜

我国共有34个省级行政区域,包括23个省,5个自治区,4个直辖市,2个特别行政区。每个省份都有自己对应的简称,而省份简称的由来,可以分为以下三种: 一、取省份全称中的一部分作为简称 比如,北京的简称是“京”,天津的简称是“津”,东北三兄弟的简称是“黑吉辽”,这种简单…

数据库之PostgreSQL详解

一、PostgreSQL介绍 PostgreSQL是一个功能强大的 开源 的关系型数据库。底层基于C实现。 PostgreSQL的开源协议和Linux内核版本的开源协议是一样的。。BDS协议&#xff0c;这个协议基本和MIT开源协议一样&#xff0c;说人话&#xff0c;就是你可以对PostgreSQL进行一些封装&a…

OpenFeign远程接口调用使用公共模块出现的错误

今天在使用openfeign和sentinel实现fallback服务降级时遇到找不到类型的异常 检查代码发现没有错误&#xff0c;EnableFeignClients也在启动类上标注了 错误信息&#xff1a;A component required a bean of type com.zxc.cloud.apis.PayFeignSentinelApi that could not be f…

类和对象(下+)_const成员、初始化列表、友元、匿名对象

类和对象&#xff08;下&#xff09; 文章目录 类和对象&#xff08;下&#xff09;前言一、const成员二、友元1.友元函数2.友元类 三、初始化列表四、explicit关键字五、匿名对象总结 前言 static成员、内部类、const成员、初始化列表、友元、匿名对象 一、const成员 将cons…

[Cloud Networking] Layer 2

文章目录 1. 什么是Mac Address?2. 如何查找MAC地址&#xff1f;3. 二层数据交换4. [Layer 2 Protocol](https://blog.csdn.net/settingsun1225/article/details/139552315) 1. 什么是Mac Address? MAC 地址是计算机的唯一48位硬件编码&#xff0c;嵌入到网卡中。 MAC地址也…

100道面试必会算法-32-二叉树右视图用栈实现队列

100道面试必会算法-32-二叉树右视图&用栈实现队列 给定一个二叉树的 根节点 root&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节点值。 示例 1: 输入: [1,2,3,null,5,null,4] 输出: [1,3,4]示例 2: 输入: [1,n…

基于vue的音乐播放器的设计与实现(论文+源码)_kaic

摘 要 当下&#xff0c;如果还依然使用纸质文档来记录并且管理相关信息&#xff0c;可能会出现很多问题&#xff0c;比如原始文件的丢失&#xff0c;因为采用纸质文档&#xff0c;很容易受潮或者怕火&#xff0c;不容易备份&#xff0c;需要花费大量的人员和资金来管理用纸质文…

java版spring cloud 深入探究ERP管理系统源码:功能模块详解与操作流程梳理

随着数字化转型的深入&#xff0c;企业对于高效、稳定且具有扩展性的管理系统的需求日益增加。为此&#xff0c;我们开发了一套基于Java技术的鸿鹄ERP管理系统&#xff0c;该系统整合了Spring Cloud Alibaba、Spring Boot、MybatisPlus、Redis等前沿技术&#xff0c;并采用了VU…

Tensorflow入门实战 P03-天气识别

目录 1、完整代码 2、运行结果 2.1 查看20张图片 2.2 程序运行 2.3 运行结果 3、小结 ① 代码运行过程中有报错&#xff1a; ② 修改代码如下&#xff1a; ③ 分析原因&#xff1a; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&…

【MySQL】服务器配置和管理

本文使用的MySQL版本是8.0 MySQL服务器介绍 MySQL服务器通常说的是mysqld程序。 mysqld 是 MySQL 数据库服务器的核心程序&#xff0c;负责处理客户端的请求、管理数据库和执行数据库操作。管理员可以通过配置文件和各种工具来管理和监控 mysqld 服务器的运行 官方文档&…

OrangePi AIpro小试牛刀-目标检测(YoloV5s)

非常高兴参加本次香橙派AI Pro&#xff0c;香橙派联合华为昇腾打造的一款AI推理开发板评测活动&#xff0c;以前使用树莓派Raspberry Pi4B 8G版本&#xff0c;这次有幸使用国产嵌入式开发板。 一窥芳容 这款开发板搭载的芯片是和华为昇腾的Atlas 200I DK A2同款的处理器&#…

Vue3【十四】watchEffect自动监视多个数据实现,不用明确指出监视哪个数据

Vue3【十四】watchEffect自动监视多个数据实现&#xff0c;不用明确指出监视哪个数据 Vue3【十四】watchEffect自动监视多个数据实现&#xff0c;不用明确指出监视哪个数据 进入立即执行一次&#xff0c;并监视数据变化 案例截图 目录结构 代码 Person.vue <template>&…

element-plus的el-text组件(文本组件)的介绍和使用

el-text&#xff08;适合文本操作的组件&#xff09; 设置文本type,如default,primary,success,info,warning,danger超出容器尺寸自动省略&#xff0c;tuncated属性设置size属性控制文本大小&#xff0c;有large,default,small设置tag属性&#xff0c;值为html5标签名&#xf…

统信UOS1070上配置文件管理器默认属性02

原文链接&#xff1a;统信UOS 1070上配置文件管理器默认属性01 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇在统信UOS 1070上配置文件管理器默认属性的第二篇文章——配置工作区视图。文件管理器中的工作区视图配置可以帮助我们更好地组织和管理文件&#xff0c;…

你还在纠结U盘怎么选吗?小白带你来看

前言 2024年的618活动已经开始了&#xff0c;这个活动买电子产品着实是比其他时间要便宜很多。 前几天小白的一个好朋友问我&#xff1a;U盘该怎么选&#xff1f; 呃&#xff0c;本来是想写“老朋友”的&#xff0c;结果她愣是要我改成“好朋友”。 行吧&#xff0c;那就好朋…