YOLO-World初体验:Ultralytics版本,可直接上手,离线运行

YOLOv8官方新增了对YOLO-World的支持,本文利用其提供的模型及接口进行了体验。

关于YOLO-World的详细介绍,见:YOLO-World:实时开放词汇目标检测-CSDN博客

目录

1. 前言

2. 安装(更新)

Ultralytics安装:

CLIP安装:

3. 上手体验

模型下载:

不设定词汇表,进行推理:

运行效果:


1. 前言

        关于Demo:

        尽管YOLO-World官方给出了在线试用的Demo:https://huggingface.co/spaces/stevengrove/YOLO-World ,但还是不如在自己电脑上离线运行一遍来得直接。恰好,近期Ultralytics(YOLOv8)也新增了对YOLO-World的支持,我们不如直接体验一把。

        关于YOLO-World:

        其是一个使用开放词汇进行目标检测的新框架,且是以YOLOv8框架为detector,所以其特点就继承了YOLO系列,也即轻量、快速、性能好。另外,既然是文本和图片一起作为输入,那么就需要有一个文本embedding的模块,这里用的是CLIP,其将用户输入的词汇列表转换为特征向量,与输入图像一起进行推理。

2. 安装(更新)

        由于YOLO-World主要包括两部分内容:YOLO-style的检测器、用于文本embedding的CLIP。因此,我们需要安装一个Ultralytics库、一个CLIP库。

Ultralytics安装:

# 新安装:
pip install ultralytics

# 已有Ultralytics,更新:
pip install -U ultralytics

CLIP安装:

        这里需要注意,不能直接“pip install clip”,这样安装的库无法使用;我们需要使用如下方式:

pip install openai-clip

3. 上手体验

模型下载:

这里选用yolov8s-world.pt:https://github.com/ultralytics/assets/releases/download/v8.1.0/yolov8s-world.pt

当然,也可以使用其他模型,可自行从Ultralytics的官网下载:。

不设定词汇表,进行推理:

这里没有用到CLIP,因为没有设定词汇,也就不需要进行text embedding了

yolo predict model=yolov8s-world.pt source=path/to/image.jpg imgsz=640

设定词汇,进行推理:

from ultralytics import YOLO


if __name__ == '__main__':

    # Initialize a YOLO-World model
    model = YOLO('yolov8/yolov8s-world.pt')  # or choose yolov8m/l-world.pt

    # Define custom classes
    model.set_classes(["person"])

    # Execute prediction for specified categories on an image
    results = model.predict('image_01.jpg')

    # Show results
    results[0].show()

这里,我们设定了只包括一个词汇的词汇表:["person"],那么自然,我们也可以根据需要设定多个词汇。由于设定了词汇表,所以就会用到CLIP,它会将各个词汇进行嵌入,转换为text feature。

上述代码中用到了set_classes(),其实现如下:

    def set_classes(self, text):
        """Perform a forward pass with optional profiling, visualization, and embedding extraction."""
        try:
            import clip
        except ImportError:
            check_requirements("git+https://github.com/openai/CLIP.git")
            import clip

        model, _ = clip.load("ViT-B/32")
        device = next(model.parameters()).device
        text_token = clip.tokenize(text).to(device)
        txt_feats = model.encode_text(text_token).to(dtype=torch.float32)
        txt_feats = txt_feats / txt_feats.norm(p=2, dim=-1, keepdim=True)
        self.txt_feats = txt_feats.reshape(-1, len(text), txt_feats.shape[-1])
        self.model[-1].nc = len(text)

运行效果:

["person"]:

["trian"]:

 ["person", "motorcycle"]:

 运行过程中,时间消耗也是极小的,这也符合YOLO系列的风格。

Speed: 0.9ms preprocess, 43.5ms inference, 1.1ms postprocess per image at shape (1, 3, 448, 640)

 可以预见的是,YOLO-World会是未来实时开放词汇检测领域的一个重量级选手。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/402121.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

低代码开发:拖拉拽自定义表单的创新之道

一、前言 在软工圣经《人月神话》一书中,作者Brooks指出了软件发展的一个僵局:在落后的项目中增加人手,只会使进度更加落后。 为了更快完成项目,开发团队会发展的极其庞大,以致于所有的时间都花费在沟通和变更决策上&a…

Apache服务

目录 引言 一、常见的http服务程序 (一)lls (二)nginx (三)Apache (四)Tomcat 二、Apache特点 三、Apache服务的安装 (一)yum安装及配置文件 1.配置…

Mybatis速成(二)

文章目录 1. Mybatis基础操作1.1 需求1.2 准备1.3 删除1.3.1 功能实现1.3.2 日志输入1.3.3 预编译SQL1.3.3.1 介绍1.3.3.2 SQL注入1.3.3.3 参数占位符 1.4 新增1.4.1 基本新增1.4.2 主键返回 1.5 更新1.6 查询1.6.1 根据ID查询1.6.2 数据封装1.6.3 条件查询1.6.4 参数名说明 2.…

redis实现消息队列redis发布订阅redis监听key

文章目录 Redis消息队列实现异步秒杀1. jvm阻塞队列问题2. 什么是消息队列3. Redis实现消息队列1. 基于List结构模拟消息队列操作优缺点 2. 基于PubSub发布订阅的消息队列操作优缺点spring 结合redis的pubsub使用示例1. 引入依赖2. 配置文件3. RedisConfig4. CustomizeMessageL…

运维SRE-16 自动化批量管理-ansible2

7.6ansible-软件包管理模块 yum_repository(管理yum源) yum(yum命令) get_url(wget命令)1)yum源配置管理模块 yum源模块 yum_repositoryyum源配置文件内容name[epel]yum源中的名字(中括号里面的名字即可)descriptionnamexxxxxxyum源的注释说明baseurlbaseurlyum源…

一位面试了20+家公司的测试工程师,发现了面试“绝杀四重技”!

年少不懂面试经,读懂已是测试人。 大家好,我是一名历经沧桑,看透互联网行业百态的测试从业者,经过数年的勤学苦练,精钻深研究,终于从初出茅庐的职场新手成长为现在的测试老鸟,早已看透了面试官…

尝试一下最新的联合办公利器ONLYOffice

下载下来一起试试吧 桌面安装版下载地址:https://www.onlyoffice.com/zh/download-desktop.aspx) 官网地址:https://www.onlyoffice.com 普通Office对联合办公的局限性 普通Office软件(如Microsoft Office、Google Docs等)在面对…

【html学习笔记】3.表单元素

1.文本框 1.1 语法 <input type "text">表示文本框。且只能写一行 1.2 属性 使用属性size 设置文本框大小 <input type"text" size"10">2. 使用属性value 来设置文本框的默认文字 <input type"text" size"…

【初始RabbitMQ】延迟队列的实现

延迟队列概念 延迟队列中的元素是希望在指定时间到了之后或之前取出和处理消息&#xff0c;并且队列内部是有序的。简单来说&#xff0c;延时队列就是用来存放需要在指定时间被处理的元素的队列 延迟队列使用场景 延迟队列经常使用的场景有以下几点&#xff1a; 订单在十分…

js设计模式:依赖注入模式

作用: 在对象外部完成两个对象的注入绑定等操作 这样可以将代码解耦,方便维护和扩展 vue中使用use注册其他插件就是在外部创建依赖关系的 示例: class App{constructor(appName,appFun){this.appName appNamethis.appFun appFun}}class Phone{constructor(app) {this.nam…

开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?

开放Gemma而非“开源”&#xff0c;谷歌为何转变大模型竞争策略 开放而非开源&#xff01;&#xff01;一、Gemma开源模型二、Gemma从今天开始在全球范围内提供。以下是关键的详细信息&#xff1a;三、为什么这样做&#xff1f;四、谷歌这一竞争策略如何&#xff1f; 2月21日晚…

饮用水除氟树脂吸附设备

项目名称 某水务集团地下水除氟项目 工艺选择 石英砂过滤器除氟树脂系统 工艺原理 选择性去除氟化物&#xff0c;降低氯离子、硫酸根的干扰 项目背景 为了保障居民饮水安全与健康&#xff0c;对于含氟量高的地下水必须经过除氟处理&#xff0c;使其符合国家规定的饮用…

【力扣hot100】刷题笔记Day10

前言 一鼓作气把链表给刷完&#xff01;&#xff01;中等题困难题冲冲冲啊啊啊&#xff01; 25. K 个一组翻转链表 - 力扣&#xff08;LeetCode&#xff09; 模拟 class Solution:def reverseKGroup(self, head: Optional[ListNode], k: int) -> Optional[ListNode]:# 翻转…

having子句

目录 having子句 having和where的区别 Oracle从入门到总裁:https://blog.csdn.net/weixin_67859959/article/details/135209645 现在要求查询出每个职位的名称&#xff0c;职位的平均工资&#xff0c;但是要求显示平均工资高于 200 的职位 按照职位先进行分组&#xff0c;同…

四问带你搞懂 I3C

大家都知道 I2C &#xff0c;它的全称是 Inter Integrated Circuit &#xff0c;那 I3C 又是什么&#xff1f; I3C 是 MIPI &#xff08;Mobile Industry Processor Interface&#xff09;移动产业处理器接口联盟推出的&#xff0c;全称是 Improved Inter Integrated Circuit &…

玩转网络抓包利器:Wireshark常用协议分析讲解

Wireshark是一个开源的网络协议分析工具&#xff0c;它能够捕获和分析网络数据包&#xff0c;并以用户友好的方式呈现这些数据包的内容。Wireshark 被广泛应用于网络故障排查、安全审计、教育及软件开发等领域。关于该工具的安装请参考之前的文章&#xff1a;地址 &#xff0c;…

【动态规划专栏】专题四:子数组问题--------最大子数组和环形子数组的最大和

本专栏内容为&#xff1a;算法学习专栏&#xff0c;分为优选算法专栏&#xff0c;贪心算法专栏&#xff0c;动态规划专栏以及递归&#xff0c;搜索与回溯算法专栏四部分。 通过本专栏的深入学习&#xff0c;你可以了解并掌握算法。 &#x1f493;博主csdn个人主页&#xff1a;小…

openEuler2203 LTS安装VMware WorkStation Pro 17并远程桌面连接Linux服务器

openEuler 2203 LTS默认只有命令行&#xff0c;没有GUI图形界面&#xff0c;在其中安装VMware WorkStation需要有图形界面的支持。这里以安装深度的DDE桌面环境&#xff0c;最后通过VNC远程桌面连接Linux服务器操作VMware WorkStation。 以下操作请保持网络能正常连接 1、安装…

【网站项目】679学生学籍管理系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

gitlab的使用

前一篇文章我们已经知道Git人人都是中心&#xff0c;那他们怎么交互数据呢&#xff1f; • 使用GitHub或者码云等公共代码仓库 • 使用GitLab私有仓库 目录 一、安装配置gitlab 安装 初始化 这里初始化完成以后需要记住一个初始密码 查看状态 二、使用浏览器访问&#xf…