生命科学领域 - FAIR原则和如果使数据FAIR化

2016年,《Scientific Data》发表了《科学数据管理和监督的FAIR指导原则》(FAIR Guiding Principles for scientific data management and stewardship)。文章旨在提供指导方针,以提高数字资产的可发现性、可访问性、互操作性和重用性。这些原则强调机器可操作性(即计算系统在没有或最少人工干预的情况下查找、访问、互操作和重用数据的能力),因为随着数据的数量、复杂性和创建速度的增加,人类越来越依赖计算支持来处理数据。

 

FAIR原则

可发现(Findable)

 F1 数据(元数据)被分配全球唯一且持久的标识符。

 F2 使用丰富的元数据描述数据。

 F3元数据清楚明确地包含所描述的数据的标识符。

 F4数据(元数据)在搜索应用服务中注册或索引。

可访问(Accessible)

 A1 数据(元数据)可以使用标准化通信协议,通过其标识符进行检索。

  •  A1.1 该协议是开放的、免费的,并且可普遍实施;

  •  A1.2 协议允许在必要时进行身份验证和授权过程;

 A2 即使数据不再可用,也可以访问其元数据。

可互操作性(Interoperable)

 I1 数据(元数据)使用正式的、可访问的、可共享和广泛适用的语言表示。

 I2 数据(元数据)使用遵循FAIR原则的词汇表。

 I3 数据(元数据)包括对其他数据(元数据)的合法引用。

可重用(Reusable)

 R1 数据(元数据)用多个准确且相关的属性进行充分描述。

  • R1.1 发布的数据(元数据)包含清晰且可访问的数据使用协议;

  • R1.2 数据(元数据)包含详细的出处信息;

  • R1.3 数据(元数据)符合领域相关标准;

如何使数据FAIR化

数据FAIR化流程可分7

1)确定目标

2)分析数据

3)分析元数据

4)定义语义数据和元数据模型

5)链接数据和元数据

6)托管FAIR数据

7)评估FAIR数据

7个步骤又可分为FAIR化过程前(步骤123),过程中(步骤456)和过程后(步骤7)三个阶段。

步骤确定目标(FAIR化过程前阶段)

FAIR化目标。首先,我们要能获取数据。如果要获取的数据涉及隐私和敏感问题,可使用匿名数据。数据FAIR化的目标可能是需要满足出版方、项目资助方或相关权益方的要求,或者是要增加多源数据的使用效率。我们建议先根据已有资源的条件(比如时间)确定部分数据元素的FAIR化目标。FAIR化目标是否实现依赖于:1)学科领域知识和数据建模知识;2) 可重用的FAIR解决方案;3)具有FAIR化特征、适合处理数据集的工具。


分析数据(FAIR化过程前阶段)

个步骤包括1)调查数据可获取的形式,检查数据表达形式和数据元素(数据的语义)的含义是否清楚且无歧义;2)检查数据是否包含FAIR特征,比如具有永久唯一标识符。

分析元数据(FAIR化过程前阶段)

数据是使数据可发现,可获取和可重用的关键。步骤3的工作包括1)调查是否具备元数据,如果没有元数据要明确需要采集什么元数据(每个学科领域的要求不同);2)检查元数据是否具有FAIR特征,比如元数据是否丰富,是否具有溯源描述信息,以及是否具有提高元数据质量所要考虑的细节,例如使用许可、版权、数据贡献声明以及使用条件和数据获取说明。

步骤定义语义数据和元数据模型(FAIR化过程中阶段)

义模型指的是下一个步骤中把数据和元数据转换成机器可读形式的模板。生成语义模型通常是数据FAIR化过程中最费时的一项工作。需要首先检查下数据是否已有语义模型,元数据是否可重用。新建一个语义模型需要三个步骤:1)创建概念模型;2)搜索本体词汇,3)创建语义模型。这个过程既需要研究领域的知识,也需要数据语义建模的知识。

步骤链接数据和元数据(FAIR化过程中阶段)

接数据和元数据的方法随着数据使用案例不同而不同。关键之处在于对数据和元数据的描述要求是机器可读的。数据的语义模型应该和数据以及元数据关联,这样语义模型将来才可能被重用,具有互操作使用的功能。这个阶段可使用的工具包括the FAIRifier,它可帮助将数据转为机器可读的形式,并且通过追踪中间步骤而使这个转换过程可重用。其他类似的工具还有Karma , Rightfield OntoMaton。将元数据转换为机器可读的形式的工具有the FAIR Metadata Editor , CEDAR , 以及Bioschemas Generator。推荐两种方法利用元数据增加资源被发现的可能性。第一,推荐将数据资源在本领域相关的资源注册中心或索引机构登记和索引,最好是符合FAIR原则的注册中心或索引机构。第二,推荐使用Schema.org 的标记(或者本领域的标记体系例如Bioschemas)使得数据资源将来可以被通用目的的搜索引擎例如Google检索到。

步骤托管FAIR数据(FAIR化过程中阶段

在这个步骤,数据处于可被消费的状态。人或者机器通过不同的界面,例如API, RDF 三元组存储,或者网页应用程序调用数据。在线展示FAIR资源的工具有很多,例如FAIR Data Point (FDP) 软件。该软件针对人类用户的界面提供了包括元数据层链接的简单网页,供机器处理的界面上提供可机读的RDF文件。

步骤评估FAIR数据(FAIR化过程后阶段)

步骤包括的工作:1)检查是否在步骤1中描述的目标已经实现,如果没有实现,要重新检查工作流步骤;2)检查数据和元数据的FAIR状态和步骤23中的FAIR状态进行比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/163242.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一些RLHF的平替汇总

卷友们好,我是rumor。 众所周知,RLHF十分玄学且令人望而却步。我听过有的小道消息说提升很大,也有小道消息说效果不明显,究其根本还是系统链路太长自由度太高,不像SFT一样可以通过数据配比、prompt、有限的超参数来可控…

【论文解读】FFHQ-UV:用于3D面部重建的归一化面部UV纹理数据集

【论文解读】FFHQ-UV 论文地址:https://arxiv.org/pdf/2211.13874.pdf 0. 摘要 我们提出了一个大规模的面部UV纹理数据集,其中包含超过50,000张高质量的纹理UV贴图,这些贴图具有均匀的照明、中性的表情和清洁的面部区域,这些都是…

【数据预处理2】数据预处理——数据标准化

数据标准化 1. 什么是标准化?   数据标准化是一个常用的数据预处理操作,目的是将不同规格的数据转换到统一规格或不同分布的数据转换到某个特定范围,以减少规模、特征、分布差异等对模型的影响。这种操作也叫作无量纲化。   除了用作模型…

【【萌新的SOC学习之 VDMA 彩条显示实验之一】】

萌新的SOC学习之 VDMA 彩条显示实验之一 实验任务 : 本章的实验任务是 PS写彩条数据至 DDR3 内存中 然后通过 VDMA IP核 将彩条数据显示在 RGB LCD 液晶屏上 下面是本次实验的系统框图 VDMA 通过 HP接口 与 PS端的 DDR 存储器 进行交互 因为 VDMA 出来的是 str…

【数据预处理3】数据预处理 - 归一化和标准化

处理数据之前,通常会使用一些转换函数将「特征数据」转换成更适合「算法模型」的特征数据。这个过程,也叫数据预处理。 比如,我们在择偶时,有身高、体重、存款三个特征,身高是180、体重是180、存款是180000&#xff1…

SpringBoot 整合 Freemarker

通过 Freemarker 模版,我们可以将数据渲染成 HTML 网页、电子邮件、配置文件以及源代码等。 Freemarker 不是面向最终用户的,而是一个 Java 类库,我们可以将之作为一个普通的组件嵌入到我们的产品中。 Freemarker 模版后缀为 .ftl(FreeMarke…

python算法例10 整数转换为罗马数字

1. 问题描述 给定一个整数,将其转换为罗马数字,要求返回结果的取值范围为1~3999。 2. 问题示例 4→Ⅳ,12→Ⅻ,21→XⅪ,99→XCIX。 3. 代码实现 def int_to_roman(num):val [1000, 900, 500, 400,100, 90, 50, 40…

【DevOps】Git 图文详解(四):Git 使用入门

Git 图文详解(四):Git 使用入门 1.创建仓库2.暂存区 add3.提交 commit 记录4.Git 的 “指针” 引用5.提交的唯一标识 id,HEAD~n 是什么意思?6.比较 diff 1.创建仓库 创建本地仓库的方法有两种: 一种是创建…

(Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、部分程序: 四、完整程序数据说明文档下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matalb平…

Java Swing算术我最棒

内容要求 1) 本次程序设计是专门针对 Java 课程的,要求使用 Java 语言进行具有一定代码量的程序开发。程序的设计要结合一定的算法,在进行代码编写前要能够设计好自己的算法。 本次程序设计涉及到 Java 的基本语法,即课堂上所介绍的变量、条件语句、循…

vuedraggable拖拽列表设置某一条元素禁止被拖拽

直接上代码 <draggable filter".unDrag"><div class"unDrag">不能拖拽</div><div class"canDrag">可以拖拽</div> </draggable>一、设置filter 在draggable节点的属性filter设置不可拖拽的class名&#…

3D全景视角,足不出户感知真实场景的魅力

近年来&#xff0c;随着科技的快速发展&#xff0c;普通的平面静态视角已经无法满足我们了&#xff0c;不管是视角框架的限制还是片面的环境展示&#xff0c;都不足以让我们深入了解场景环境。随着VR全景技术的日益成熟&#xff0c;3D全景技术的出现为我们提供了全新的视觉体验…

uni-app(1)pages. json和tabBar

第一步 在HBuilderX中新建项目 填写项目名称、确定目录、选择模板、选择Vue版本&#xff1a;3、点击创建 第二步 配置pages.json文件 pages.json是一个非常重要的配置文件&#xff0c;它用于配置小程序的页面路径、窗口表现、导航条样式等信息。 右键点击pages&#xff0c;按…

Kafka(四)消费者消费消息

文章目录 如何确保不重复消费消息&#xff1f;消费者业务逻辑重试消费者提交自定义反序列化类消费者参数配置及其说明重要的参数session.time.ms和heartbeat.interval.ms和group.instance.id增加消费者的吞吐量消费者消费的超时时间和poll()方法的关系 消费者消费逻辑启动消费者…

遗传算法GA-算法原理与算法流程图

本站原创文章&#xff0c;转载请说明来自《老饼讲解-BP神经网络》bp.bbbdata.com 目录 一、遗传算法流程图 1.1. 遗传算法流程图 二、遗传算法的思想与机制 2.1 遗传算法的思想 2.2 遗传算法的机制介绍 三、 遗传算法的算法流程 3.1 遗传算法的算法…

PXE高效批量网络装机

目录 一.PXE 1. 系统装机的三种引导方式 2. 系统安装过程 3. 光盘安装相关文件 4. PXE简介 5. 实现过程 6. PXE优点 二.PXE实现过程 1. 实验准备 2. 搭建DHCP服务器 3. 配置TFTP服务器 4. 准备pxelinu.0文件 5. 挂载镜像准备内核、驱动文件 6. 手写配置文件 7. 准…

强烈 推荐 13 个 Web前端在线代码IDE

codesandbox.io&#xff08;国外&#xff0c;提供免费空间&#xff09; 网址&#xff1a;https://codesandbox.io/ CodeSandbox 专注于构建完整的 Web 应用程序&#xff0c;支持多种流行的前端框架和库&#xff0c;例如 React、Vue 和 Angular。它提供了一系列增强的功能&…

springboot项目中获取业务功能的导入数据模板文件

场景: 在实际业务场景中,经常会遇到某些管理功能需要数据导入共功能,但既然是导入数据,肯定会有规则限制,有规则就会有数据模板,但这个模板一般是让客户自己下载固定规则模板,而不是让客户自己随便上传模板。下面介绍直接下载模板 一、下载模板示例 1、在项目的…

信安.网络安全.UDP协议拥塞

第一部分 如何解决UDP丢包问题 一、UDP 报文格式 每个 UDP 报文分为 UDP 报头和 UDP 数据区两部分。报头由 4 个 16 位长&#xff08;2 字节&#xff09;字段组成&#xff0c;分别说明该报文的源端口、目的端口、报文长度和校验值。UDP 报文格式如图所示。 UDP 报文中每个…

前端性能优化之LightHouse

优质博文&#xff1a;IT-BLOG-CN 一、LightHouse环境搭建 LightHouse是一款由Google开发的开源工具&#xff0c;用于评估Web应用程序的性能和质量。可以将其看作是一个Chrome扩展程序运行&#xff0c;或从命令行运行。为LightHouse提供一个需要审查的网址&#xff0c;它将针对…