AI2THOR 2.1.0使用教程

一、安装和入门

1.1 AI2-THOR使用要求

  • 操作系统: Mac OS X 10.9+, Ubuntu 14.04+
  • 显卡:DX9(着色器型号 3.0)或 DX11,功能级别为 9.3。
  • CPU:支持 SSE2 指令集。
  • Python 2.7 或 Python 3.5+
  • Linux 用户:启用了 GLX 模块的 X 服务器

1.2 使用 pip 安装

  您可以使用 pip 安装 AI2-THOR。创建 Python 2.7/3.5/3.6 虚拟环境,

conda create -n ai2thor_env python=3.6

  然后进入虚拟环境

conda activate ai2thor_env

  然后安装ai2thor

pip install ai2thor

  在运行以下代码之前,请确保正在运行带有 OpenGL 的 X 服务器,并且已为您的显卡安装了 OpenGL 扩展。

import ai2thor.controller
controller = ai2thor.controller.Controller()
controller.start()

  第一次使用控制器时,包含 3D 场景的游戏环境将被下载到 $HOME/.ai2thor。二进制文件的大小约为 500MB。

二、概念

  • Agent: 胶囊形状的实体,可在场景中导航并与物体互动。

  • Scene: AI2-THOR 中的场景代表一个虚拟房间,代理可以在其中导航并与之互动。有 4 个场景类别,每个类别有 30 个独特的场景: 厨房、起居室、卧室、浴室。

  • Action: 让代理在场景中执行的离散命令(例如,向前移动、向右旋转、拾取对象)

  • Sim Object: 可以与代理互动的对象。根据 “对象类型”(Object Type)所定义的 “承受能力”(affordanced),"对象 "具有一系列交互功能。

  • Object Visibility: 当一个对象满足三个条件时,它就被认为是可见的: 它必须位于摄像机的视口内,必须与 Agent 的中心距离在一个阈值范围内(默认值:1.5 米),并且从摄像机发射的光线必须在不首先击中其他障碍物的情况下击中该对象。请注意,图像中渲染的物体并不总是对 Agent 可见。例如,1.5 米阈值之外的物体可以在图像中看到,但对 Agent 来说将被报告为不可见。

  • Object Interactability: 如果一个物体被标记为可见,并且没有任何其他物体遮挡,那么这个物体就是可交互的。大多数对象只要也是可见的,就是可交互的,但有些对象是透明的,这可能会导致对象被报告为透过它们是可见的。例如,玻璃淋浴门后面有一个海绵物体。玻璃门将被标记为 "可见 "和 “可交互”,但海绵仅为 “可见”。如果试图与海绵进行交互,就会出现错误,因为无法通过玻璃门接触到海绵,只能看到海绵。

  • Receptacle: 一种可以容纳另一个物体的物体。例如 桌面、杯子、沙发、床、桌子、碗等。有些容器无法在场景中移动,它们大多是无法移动的大型物体(台面、水槽等)。有些收纳盒还可以打开和关闭(微波炉、橱柜、抽屉等),而有些收纳盒还可以被代理拿起来移动(盘子、碗、盒子等)。

三、示例

  我们提供了一些示例来展示如何使用 AI2-THOR。

3.1 简单示例

  一个简单的示例,将代理向前移动一步并返回相应的图像和元数据。

import ai2thor.controller
controller = ai2thor.controller.Controller()
controller.start()

# Kitchens: FloorPlan1 - FloorPlan30
# Living rooms: FloorPlan201 - FloorPlan230
# Bedrooms: FloorPlan301 - FloorPlan330
# Bathrooms: FloorPLan401 - FloorPlan430

controller.reset('FloorPlan28')
controller.step(dict(action='Initialize', gridSize=0.25))

event = controller.step(dict(action='MoveAhead'))

# Numpy Array - shape (width, height, channels), channels are in RGB order
event.frame

# Numpy Array in BGR order suitable for use with OpenCV
event.cv2image()

# current metadata dictionary that includes the state of the scene
event.metadata

3.2 调用复杂操作的示例

  拿起杯子, 打开微波炉, 把杯子放在微波炉里

  要拾取对象,代理必须首先导航到有可拾取/可见对象的区域。通常,它应该通过一系列 MoveAhead、RotateLeft、RotateRight 命令来完成。在这里,我们直接传送到一个已知的位置,那里有一个杯子。

import ai2thor.controller
controller = ai2thor.controller.Controller()
controller.start()

controller.reset('FloorPlan28')
controller.step(dict(action='Initialize', gridSize=0.25))

controller.step(dict(action='Teleport', x=-2.5, y=0.900998235, z=-3.0))
controller.step(dict(action='LookDown'))
event = controller.step(dict(action='Rotate', rotation=180))
# In FloorPlan28, the agent should now be looking at a mug
for o in event.metadata['objects']:
    if o['visible'] and o['pickupable'] and o['objectType'] == 'Mug':
        event = controller.step(dict(action='PickupObject', objectId=o['objectId']), raise_for_failure=True)
        mug_object_id = o['objectId']
        break

# the agent now has the Mug in its inventory
# to put it into the Microwave, we need to open the microwave first

event = controller.step(dict(action='LookUp'))
event = controller.step(dict(action='RotateLeft'))

event = controller.step(dict(action='MoveLeft'))
event = controller.step(dict(action='MoveLeft'))
event = controller.step(dict(action='MoveLeft'))
event = controller.step(dict(action='MoveLeft'))

event = controller.step(dict(action='MoveAhead'))
event = controller.step(dict(action='MoveAhead'))
event = controller.step(dict(action='MoveAhead'))
event = controller.step(dict(action='MoveAhead'))
event = controller.step(dict(action='MoveAhead'))
event = controller.step(dict(action='MoveAhead'))

for o in event.metadata['objects']:
    if o['visible'] and o['openable'] and o['objectType'] == 'Microwave':
        event = controller.step(dict(action='OpenObject', objectId=o['objectId']), raise_for_failure=True)
        receptacle_object_id = o['objectId']
        break

event = controller.step(dict(
    action='PutObject',
    receptacleObjectId=receptacle_object_id,
    objectId=mug_object_id), raise_for_failure=True)

# close the microwave
event = controller.step(dict(
    action='CloseObject',
    objectId=receptacle_object_id), raise_for_failure=True)

3.3 多智能体示例

  此示例说明如何在多代理设置中运行 AI2-THOR。

import ai2thor.controller
controller = ai2thor.controller.Controller()
controller.start()

# agentCount specifies the number of agents in a scene
multi_agent_event = controller.step(dict(action='Initialize', gridSize=0.25, agentCount=2))

# print out agentIds
for e in mult_agent_event.events:
    print(e.metadata['agentId'])

# move the second agent ahead, agents are 0-indexed
multi_agent_event = controller.step(dict(action='MoveAhead', agentId=1)) 

3.4 多线程示例

  此示例演示如何以多线程方式运行代理的多个实例。

mport threading
import time
import ai2thor.controller

thread_count = 8

def run():
    controller = ai2thor.controller.Controller()
    controller.start()

    # 100 is an arbritary number
    for _ in range(100):
        t_start = time.time()
        controller.reset('FloorPlan1')
        controller.step({'action' : 'Initialize', 'gridSize' : 0.25})
        print('init time', time.time() - t_start)
        t_start_total = time.time()
        for _ in range(10):
            controller.step({'action' : 'MoveAhead'})
            controller.step({'action' : 'RotateRight'})
        total_time = time.time() - t_start_total
        print('total time', total_time, 20 / total_time, 'fps')

threads = [threading.Thread(target=run) for _ in range(thread_count)]
for t in threads:
    t.daemon = True
    t.start()
    time.sleep(1)

for t in threads:
    # calling join() in a loop/timeout to allow for Python 2.7
    # to be interrupted with SIGINT
    while t.isAlive():
        t.join(1)

print('done')

3.5 一个示例结果

在这里插入图片描述

参考文献

[1] https://allenai.github.io/ai2thor-v2.1.0-documentation/installation#

[2] https://ai2thor.allenai.org/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/693300.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FuTalk设计周刊-Vol.040

🔥AI漫谈 热点捕手 1、零代码定制游戏NPC,百川智能发布角色大模型 百川智能此次推出了“角色创建平台搜索增强知识库”的定制化解决方案。通过这一方案,游戏厂商无需编写任何代码,只需通过简单的文字描述,便可以快速…

28-unittest批量执行(discover)

unittest框架提供了创建测试用例、测试套件以及批量执行的解决方案。 利用单元测试框架创建测试类,可以把每个测试方法看成是一个最小的单元, 由测试容器组装打包起来,然后可以统一执行,最后输出测试报告。 一、UnitTest核心要素…

OpenCV如何判断一张图片是否有过高的明暗变化

操作系统:ubuntu22.04OpenCV版本:OpenCV4.9IDE:Visual Studio Code编程语言:C11 前言 判断一张图片是否有过高的明暗变化,可以通过分析图像的亮度分布一致性来实现。一种常见的做法是计算图像的亮度标准差(Standard …

JAVA技术设计模式

设计模式结构图 设计原则 职责单一原则接口隔离原则 一个类对另一个类的依赖应该建立在最小的接口上 依赖倒置面向接口编程,参数或变量,依赖注入,使用父类 开闭原则 对扩展开放(对提供方),对修改关闭(对使用方) 用抽象构建框架,用实现扩展细节 里氏替换原则…

计算机网络--物理层

计算机网络--计算机网络概念 计算机网络--物理层 计算机网络--数据链路层 计算机网络--网络层 计算机网络--传输层 计算机网络--应用层 1. 基本概念 物理层的概念:物理层解决如何在在连接各种计算机的传输媒体上传输数据比特流,而不是指具体的传输…

STM32编程:实现LED灯闪烁(基于手写SDK的方式)

项目结构 stm32f10x.h 文件 //寄存器的值常常是芯片外设自动更改的,即使CPU没有执行程序,也有可能发生变化 //编译器有可能会对没有执行程序的变量进行优化//volatile表示易变的变量,防止编译器优化, #define __IO volati…

2024-6-9 石群电路-27

2024-6-9,星期日,12:49,天气:晴,心情:晴。Hello,大家,我回来啦,昨天断更了一天,是为什么捏,是因为,我通过毕业答辩啦!&…

数据挖掘分析的一点进步分享

import pandas as pd import matplotlib.pyplot as plt import numpy as npdata pd.read_csv(heros.csv,encoding"gbk") data.head() 导入数据集 进行分析 df_datadata.copy() df_data.describe()df_data.info() df_data.drop(英雄,axis1,inplaceTrue) df_data[最…

[C++初阶]string类的详解

一、string类的模拟实现 上面已经对string类进行了简单的介绍,大家只要能够正常使用即可。在面试中,面试官总喜欢让我们来模拟实现string类,最主要是实现string类的构造、拷贝构造、赋值运算符重载以及析构函数。大家看下以下string类的实现是…

Flink 问题之 No Watermark (Watermarks are only available if EventTime is used)

问题背景 Flink-1.17.0在集群下,获取Kafka集群数据,进行流模式实时计算,Watermarks提示:No Watermark (Watermarks are only available if EventTime is used); source数据源是从kafka中读取topic数据,经…

【最新鸿蒙应用开发】——ArkUI两种开发范式

在进行鸿蒙应用开发,openHarmony提供了一种页面开发框架叫做ArkUI方舟框架来进行页面布局的开发。 ArkUI方舟UI框架 针对不同的应用场景及技术背景,方舟UI框架提供了两种开发范式,分别是基于ArkTS的声明式开发范式(简称“声明式…

分享美好,高清无阻 - 直播极简联网解决方案

1、需求背景 随着移动互联网、UGC模式和直播平台的发展,网络直播的门槛日益降低,越来越多的人希望成为直播的主角。基于物联网的户外直播无线联网解决方案应运而生,满足直播者的需求。 户外直播无线联网解决方案提供了无处不在的直播体验&a…

UniAnimate:华科提出人类跳舞视频生成新框架,支持合成一分钟高清视频

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…

Java 环境配置 -- Java 语言的安装、配置、编译与运行

大家好,我是栗筝i,这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 002 篇文章,在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验,并希望进…

未来AI大模型的发展趋势

大家好,我是小悟 未来AI大模型的发展趋势无疑将是多元化、高效化、普及化以及人性化。随着技术的飞速进步,AI大模型将在各个领域中展现出更加广泛和深入的应用,成为推动社会进步的重要力量。 多元化是AI大模型发展的重要方向。随着数据量的…

vue26:vue的环境搭建

vue环境安装配置 在点击上方链接前,注意!!!!!!!! 下方的红字!!!!!!!!&am…

在 Qt Creator 上创建 ROS 项目并新建/导入 ROS 包

0、引言 ⚠️ 在开始之前,您需要确保您已经为 Qt 配置好了 ROS 开发环境了。如果您还没有配置好,可以参考这篇文章 本文将着手探讨如何在 Qt Creator 上编辑 ROS 项目(工作空间)。 1、本教程使用到的相关软件或产品 Ubuntu 20.0…

【AI基础】第四步:保姆喂饭级-langchain+chatglm2-6b+m3e-base

在第三步手动安装chatglm2-6b时,已经可以通过web进行交互。langchain重新封装了一下AI框架,提供更加友好的开发功能,类似于AI届的spring框架。langchain的安装过程也类似于上一步说的:【AI基础】第三步:纯天然手动安装…

github异常问题总结

问题1: gitgitlab.gz.cvte.cn: Permission denied (publickey). fatal: Could not read from remote repository.Please make sure you have the correct access rights and the repository exists.解决方法: 这个错误表示 GitLab 服务器拒绝了你的 SSH…

【MySQL】(基础篇二) —— MySQL初始用

MySQL初始用 目录 MySQL初始用基本语法约定选择数据库查看数据库和表其它的SHOW 在Navicat中,大部分数据库管理相关的操作都可以通过图形界面完成,这个很简单,大家可以自行探索。虽然Navicat等图形化数据库管理工具为操作和管理数据库提供了非…