【计算机视觉 | Kaggle】保姆级教程:入门 Kaggle 的步骤详细介绍

文章目录

  • 一、Overview
  • 二、Evaluation
  • 三、Timeline
  • 四、Code Requirements
  • 五、Data
    • 5.1 数据的可视化
    • 5.2 文件
  • 六、Discussion
  • 七、Code

一、Overview

当进入到一场比赛的 Overview 页面后,先读完 Description,了解比赛讲了一件什么事情。

我们以一场比赛举例说明:

在这里插入图片描述

这场比赛中,比赛的描述为:

凝结尾迹是在飞机发动机排气中形成的冰晶云。它们可以通过将热量捕获在大气中来促进全球变暖。研究人员已经开发了模型来预测凝结尾迹何时形成以及它们会导致多少变暖。但是,他们需要用卫星图像验证这些模型。

您的工作将帮助研究人员提高其 contrail 模型的准确性。这将有助于航空公司避免产生凝结尾迹,并减少其对气候变化的影响。

避免凝结尾迹可能是当今航空公司可用的最具可扩展性、最具成本效益的可持续性解决方案之一。凝结尾迹是“冷凝轨迹”的缩写,是在飞机发动机排气中形成的线形冰晶云,由飞机飞越大气中的超潮湿区域而产生。持久性凝结尾迹对全球变暖的贡献与它们为飞行燃烧的燃料一样多。这种现象最早是在75年前由军用飞机发现的,目的是避免留下可见的痕迹。大约30年前,欧洲的气候科学家开始明白,凝结尾迹阻挡了通常在一夜之间从地球释放的热量。他们根据天气数据建立了强大的模型,以确定凝结尾迹何时形成以及变暖程度。他们的研究也得到了其他实验室的验证,现在人们普遍认为凝结尾迹约占人类造成的全球变暖的1%。使用卫星图像背后的动机是凭经验证实这些模型的预测。通过可靠的验证,飞行员可以对模型充满信心,航空业可以采用值得信赖的方法来衡量成功的避险情况。

您的工作将以量化的方式提高预测形成区域的置信度以及避免创建它们的技术。

Google 研究院将机器学习应用于缓解气候变化和适应我们已经看到的变化的机会。我们在聚变能等离子体建模、野火早期检测、最佳汽车路线和气候灾害预测方面开展了研究项目。

数据集来源:麻省理工学院航空与环境实验室由麻省理工学院教授史蒂文·巴雷特(Steven Barrett)领导 卫星图像来自NOAA GOES-16,详见:

https://www.goes-r.gov/

二、Evaluation

然后进入 Evaluation,这一部分介绍了比赛的评价算法,以及最终提交文件的格式。

在这里插入图片描述

我们翻译一下:

本次比赛按照全球Dice系数进行评估。 Dice 系数可用于比较预测分割与其相应的地面实况之间的像素级一致性。 公式由下式给出:

在这里插入图片描述
其中 X 是测试数据中所有观测值的预测轨迹像素的整个集合,Y 是测试数据中所有轨迹像素的地面实况集。

为了减少提交文件的大小,我们的指标对像素值使用游程编码。 您将提交包含起始位置和游程长度的值对,而不是提交用于分割的详尽索引列表,例如,“1 3”表示从像素 1 开始并运行总共 3 个像素(1,2 ,3).

请注意,在编码时,掩码应该是二进制的,这意味着图像中所有对象的掩码都连接到一个大掩码中。 值 0 应表示未屏蔽的像素,值 1 表示已屏蔽的像素。

竞赛格式需要一个以空格分隔的配对列表。 例如,“1 3 10 5”意味着像素 1、2、3、10、11、12、13、14 将包含在掩模中。 该度量检查这些对是否已排序、是否为正,并且解码的像素值是否不重复。 像素从上到下、从左到右编号:1 是像素 (1,1),2 是像素 (2,1),依此类推。

重要提示:空预测必须在提交文件中用“-”标记。 可以在此笔记本中找到正确编码和解码运行长度编码的代码。

三、Timeline

Timeline 随便看一下好了,知道什么时候停止组队和什么时候结束就行。注意这里是 UTC-0 的时间,比北京时间迟 8 小时。

在这里插入图片描述

四、Code Requirements

然后是 Code Requirements。这里主要看一下 Run-time 的限制,Run-time 代表你的代码最大运行时间。本次比赛允许 GPU 运算的提交,并且要求方案运行时间不超过 9 小时。

在这里插入图片描述

五、Data

5.1 数据的可视化

这里每一行都要仔细看,每份 csv 文件里的每个字段都会有解释的,很多细节甚至会影响到比赛的打法。

在本次比赛中,您将使用地球静止卫星图像来识别航空轨迹。

原始卫星图像是从 GOES-16 高级基线成像仪 (ABI) 获得的,该图像可在 Google 云存储上公开获取。 使用双线性重采样对原始全盘图像进行重新投影以生成局部场景图像。 由于在时间背景下更容易识别尾迹,因此提供了一系列以 10 分钟为间隔的图像。 每个示例 (record_id) 只包含一个标记帧。

从预印本中了解有关数据集的更多信息:OpenContrails:GOES-16 ABI 上的轨迹检测基准测试。 标签说明可在本补充材料中找到。 一些关键的标签指南:

  • 轨迹必须至少包含 10 个像素
  • 在生命中的某个时刻,凝结尾迹的长度必须至少是其宽度的 3 倍
  • 尾迹必须突然出现或从图像的侧面进入
  • 轨迹应该在至少两张图像中可见

基本事实是由(通常)4 个以上不同的标记器对每个图像进行注释来确定的。 当超过 50% 的标记者将其注释为轨迹时,像素被视为轨迹。 训练数据中包含单独注释 ( human_individual_masks.npy ) 以及聚合的地面实况注释 ( human_pixel_masks.npy )。 验证数据仅包括聚合的地面实况注释。

这是标记轨迹的示例。 可以在此笔记本中找到生成此类图像的代码。放出可视化的代码地址:

https://blog.csdn.net/wzk4869/article/details/132189093?spm=1001.2014.3001.5501

在这里插入图片描述

5.2 文件

train/ - 训练集; 每个文件夹代表一个record_id并包含以下数据:

band_{08-16}.npy:大小为 H x W x T 的数组,其中 T = n_times_before + n_times_after + 1,表示序列中图像的数量。 标记帧之前和之后分别有 n_times_before 和 n_times_after 图像。 在我们的数据集中,所有示例的 n_times_before=4 和 n_times_after=3。 每个波段代表不同波长的红外通道,并根据校准参数转换为亮度温度。 文件名中的数字对应于 GOES-16 ABI 带编号。 ABI 频段的详细信息可在此处找到。

human_individual_masks.npy:大小为 H x W x 1 x R 的数组。每个示例都由 R 个单独的人类标记器标记。 R 并非所有样本都相同。 带标签的掩模的值为 0 或 1,对应于 band_{08-16}.npy 中的第 (n_times_before+1) 个图像。 它们仅在训练集中可用。

human_pixel_masks.npy:大小为 H x W x 1 的数组,包含二进制地面事实。 如果一个像素被超过一半的标记者标记为轨迹像素,则在评估中将其视为轨迹像素。

validation/ - 与训练集相同,没有单独的标签注释; 如果需要,可以将其用作训练数据

test/ - 测试集; 您的目标是识别这些记录中发现的轨迹。 注意:由于这是一场代码竞赛,因此您无权访问您的笔记本重新运行所针对的实际测试集。 此处显示的记录是验证数据的前两条记录的副本(不带标签)。 隐藏测试集的大小与验证集大致相同 (± 5%)。 重要提示:提交内容应使用游程编码,并且空预测(例如,无尾迹)应在提交内容中用“-”标记。 (有关详细信息,请参阅本笔记本。)

{train|validation}_metadata.json - 每条记录的元数据信息; 包含再现卫星图像的时间戳和投影参数。

Sample_submission.csv - 正确格式的示例提交文件

在这里插入图片描述

六、Discussion

看完了官方的介绍后,一般我们可以先进入 Discussion 区,最上面的 pined topics 是官方的置顶的话题,比较重要,往往是官方在比赛过程中发现了一些问题后,做出的调整。下面部分是选手们的讨论区,一般可以按照 votes 排序,对于你理解以及进阶比赛有很大帮助。选手之间的高质量交流,是 kaggle 社区的特色,这也是其他国内比赛没有的氛围。

在这里插入图片描述

七、Code

看一些你感兴趣的 Discussions 后,回到 code 区,同样按 votes 排序。

找一些关键词例如:

  • EDA(数据探索)
  • Starter(适合刚参加比赛)
  • Baseline(基线模型)

里面有大神对数据做了基本分析,而且往往有很多图表,有助于你进一步理解数据,如数据分布是否有类别不平衡的问题,之类的。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/66704.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿鹄工程项目管理系统em Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统em

​ Java版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目…

成功解决Linux下中文乱码问题,CentOS7设置系统字符编码

在linux中,可以使用以下命令查看当前系统的字符编码: echo $LANG 如果不是UTF-8,就会出现中文乱码现象! 解决办法:设置字符编码环境变量为utf-8 1. 打开 ~/.bashrc 或 ~/.bash_profile 文件 vi ~/.bashrc 或 vi ~/.bash_prof…

力扣 474. 一和零

题目来源:https://leetcode.cn/problems/ones-and-zeroes/description/ C题解:本题其实是01背包问题!只不过这个背包有两个维度,一个是m 一个是n,而不同长度的字符串就是不同大小的待装物品。动规五部曲: …

《高性能MySQL》——查询性能优化(笔记)

文章目录 六、查询性能优化6.1 查询为什么会慢6.2 慢查询基础:优化数据访问6.2.1 是否向数据库请求了不需要的数据查询不需要的记录多表关联时返回全部列总是取出全部列重复查询相同的数据 6.2.2 MySQL 是否在扫描额外的记录响应时间扫描的行数与返回的行数扫描的行…

云计算技术——多GPU渲染的云渲染服务

多GPU渲染的云渲染服务,是一种利用云计算技术,将多个图形处理器(GPU)集成在一起,为用户提供高效、便捷、低成本的渲染解决方案的服务。本文将从多GPU渲染的概念、优势、应用场景,云渲染服务的特点、优势&am…

使用 PowerShell 将 Excel 中的每个工作表单独另存为独立的文件

导语:在日常工作中,我们经常需要处理 Excel 文件。本文介绍了如何使用 PowerShell 脚本将一个 Excel 文件中的每个工作表单独另存为独立的 Excel 文件,以提高工作效率。 1. 准备工作 在开始之前,请确保已经安装了 Microsoft Exc…

领航优配:沪指震荡涨0.47%,保险、券商板块强势,互联金融概念活跃

4日早盘,两市股指高开高走,沪指一度涨逾1%打破3300点,随后涨幅有所收窄;两市半日成交超6000亿元,北向资金小幅净流入。 截至午间收盘,沪指涨0.47%报3295.91点,深成指涨0.67%,创业板指…

【ARM Cache 系列文章 9 番外篇 -- ARMv9 系列 Core 介绍】

文章目录 ARMv9 系列CoreARM Cortex-A510 介绍ARM Cortex-A715ARM Cortex-A720 ARMv9 系列Core 2021年5月Arm公布了其最新3款CPU和3款GPU核心设计,三款新CPU分别是旗舰核心Cortex-X2、高性能核心Cortex-A710、高能效核心Cortex-A510 CPU,三款新GPU核心则…

【office】world设置标题

这里写目录标题 一、整理样式库二、设置标题编号三、设置标题其它信息1.设置 标题 1a.设置字体b.设置边框c.设置段落 2.设置 标题 2a.设置字体b.设置边框 3.设置 标题 3a.设置字体b.设置边框 4.设置 标题 4a.设置字体 5.设置 标题 5a.设置字体 一、整理样式库 1.选择“开始” …

华为智选首款纯电轿跑“LUXEED”能大卖吗?

监制 | 何玺 排版 | 叶媛 华为智选纯电轿跑来袭! 8月7日,华为常务董事余承东在社交媒体上发文,宣布华为智选即将推出首款“突破想象”的纯电轿跑车。 01 华为智选首款纯电轿跑来袭 余承东的发文引起了极大关注,在各大媒体的报…

lc137. 只出现一次的数字 II

数组排序,既和前不一样又和后不一样的就是唯一的一个 public static int numberOnce(int[] nums) {Arrays.sort(nums);if (nums.length > 2 && nums[0] ! nums[1]) {//避免只有一个元素的数组return nums[0];}if (nums.length > 2 && nums[nu…

华秋亮相2023世界汽车制造技术暨智能装备博览会,推动汽车产业快速发展

洞悉全球汽车产业格局,前瞻业界未来趋势。2023年7月27日-30日,时隔三年,重聚武汉国际博览中心,2023世界汽车制造技术暨智能装备博览会盛大开幕。深耕汽车行业多年的世界汽车制造技术暨智能装备博览会,掀起行业热点新高…

一文详解 DolphinDB SQL 标准化

为了提升用户体验,降低用户学习成本和脚本迁移复杂度,自 1.30.17 / 2.00.5 版本开始,DolphinDB 逐步支持了标准化 SQL 的书写方法;并于 1.30.22 / 2.00.10 版本起,对标准 SQL 的常用语法和关键字实现了兼容。 1. 与标…

前端下载文件

前端可以通过使用 JavaScript中的 fetch 或者 XMLHttpRequest 来下载文件; 使用fetch进行文件下载; fetch(http://example.com/file.pdf).then(response > response.blob()).then(blob > {// 创建一个临时的URL对象const url window.URL.create…

适用HarmonyOS 3.1版本及以上的应用及服务开发工具 DevEco Studio 3.1.1 Release 安装

文章目录 安装步骤1.下载安装包2.安装成功后,初次运行studio2.1 配置node与ohpm的环境2.2安装sdk2.3等待安装结束 3.创建项目3.1 点击Create Project3.2 选择一个空项目3.3 项目配置3.4 Finish、等待依赖下载完毕3.5 项目创建完成 tip 提示4.配置运行环境4.1 真机运…

Git详解及使用

Git简介 Git 是一种分布式版本控制系统,它可以不受网络连接的限制,加上其它众多优点,目前已经成为程序开发人员做项目版本管理时的首选,非开发人员也可以用 Git 来做自己的文档版本管理工具。 大概是大二的时候开始接触和使用Gi…

【人工智能前沿弄潮】—— 玩转SAM(Segment Anything)

玩转SAM(Segment Anything) 官网链接: Segment Anything | Meta AI (segment-anything.com) github链接: facebookresearch/segment-anything: The repository provides code for running inference with the SegmentAnything Model (SAM), links fo…

[OnWork.Tools]系列 06-屏幕水印

简介 屏幕水印功能主要是在开会分享屏幕的时候在屏幕上增加水印 水印使用 水印启用和颜色设置 水印文字和大小设置 水印间距,透明度,角度调整

Idea使用Docker插件实现maven打包自动构建镜像

Docker 开启TCP 服务 vi /lib/systemd/system/docker.service改写以下内容 ExecStart/usr/bin/dockerd -H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock重启服务 #重新加载配置文件 systemctl daemon-reload #重启服务 systemctl restart docker.service此时docker已…

模型文件放到线上(CDN)是否会优化加载的研究

最近在3d场景开发中,想让模型加载的更快,原先在开发其他项目的时候,发现放到线上(CDN)这个方法如果网速好就会影响加载和展示的速度,并且还会是打包后的体积变小,减小打包内存,那么研…