Kaggle 赛题解析 | AMP 帕金森进展预测

文章目录

  • 一、前言
  • 二、比赛说明
    • 1. Evaluation
    • 2. Timeline
    • 3. Prize
    • 4. Code Requirements
  • 三、数据说明
  • 四、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

竞赛题目:AMP®-Parkinson’s Disease Progression Prediction

竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction

竞赛目标:本次比赛的目标是预测 MDS-UPDR 评分,该评分用于测量帕金森患者的病情进展。运动障碍学会赞助的统一帕金森病评分量表修订版 (MDS-UPDRS) 是对与帕金森病相关的运动和非运动症状的全面评估。您将开发一个模型,该模型以帕金森患者和正常同龄对照组中的蛋白质和肽水平随时间变化的数据为基础进行训练。您的工作可能有助于提供关于哪些分子在帕金森疾病进展过程中发生变化的重要突破性信息。

竞赛背景:

  • 帕金森病是一种致残的脑部疾病,影响运动、认知、睡眠和其他正常功能。不幸的是,目前还没有治愈方法,而且病情会随着时间的推移而恶化。据估计,到 2037 年,美国将有 160 万人患上帕金森病,经济成本将接近 800 亿美元。研究表明,蛋白质或肽异常在该病的发病和恶化中起着关键作用。通过数据科学更好地理解这一点,可能为开发减缓帕金森病发展甚至实现治愈的新型药物提供重要线索
  • 目前的努力已经获得了 10000 名受试者的复杂的临床和神经生物学数据,以便与研究社区广泛共享。使用这些数据已经发现了一些重要的发现,但仍缺乏明确的生物标志或治愈方法
  • 竞赛主办方——加速药物合作伙伴关系®帕金森病 (AMP®PD) 是由政府、工业界和非营利组织组成的公私合作伙伴关系,通过美国国立卫生研究院基金会 (FNIH) 进行管理。该合作伙伴创建了 AMP®PD 知识平台,其中包括对帕金森病患者进行深度分子特征化和纵向临床分析,旨在确定和验证帕金森病的诊断、预后和 / {/} /或疾病进展生物标志物。
  • 您的工作可能有助于寻找治愈帕金森病的方法,从而减轻患者的巨大痛苦和医疗费用。

二、比赛说明

1. Evaluation

提交的作品将根据预测值和实际值之间的 SMAPE 进行评估。我们定义当实际值和预测值均为 0 时,SMAPE = 0。对于每次采集蛋白质/肽样本的病人就需要估算他们在该次访问时的 UPDRS 评分,并预测他们在可能的 6、12 和 24 个月后的任何访问中的评分。最终没有实现的访问的预测将被忽略。

您必须使用提供的 Python 时间序列 API 提交到这个竞赛,该 API 可以确保模型不向前窥视时间。要使用 API,请在 Kaggle Notebooks 中遵循此模板:

import amp_pd_peptide

env = amp_pd_peptide.make_env()             # initialize the environment
iter_test = env.iter_test()                 # an iterator which loops over the test files

for (test, test_peptides, test_proteins, sample_submission) in iter_test:
    sample_prediction_df['rating'] = np.arange(len(sample_prediction))       # make your predictions here
    env.predict(sample_prediction_df)       # register your predictions

2. Timeline

除非另有说明,所有截止日期均为当天 UTC 时间晚上 11:59。竞赛组织者保留更新比赛时间表的权利,如果他们认为有必要的话。

  • 2023 年 2 月 16 日 - 开始日期。
  • 2023 年 5 月 11 日 - 报名截止日期。您必须在此日期之前接受竞赛规则才能参加比赛。
  • 2023 年 5 月 11 日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2023 年 5 月 18 日 - 最终提交截止日期。

3. Prize

  • 第 1 名 - 25,000 美元
  • 第 2 名 - 20,000 美元
  • 第 3 名 - 15,000 美元

4. Code Requirements

这是一场代码竞赛。竞赛作品必须通过 Notebooks 提交。为了使 “提交” 按钮在提交后处于活动状态,必须满足以下条件:

  • CPU Notebook <= 9小时运行时间。
  • GPU Notebook <= 9小时运行时间。
  • 禁用互联网访问。
  • 允许使用自由和公开可用的外部数据,包括预训练模型。
  • 提交文件必须命名为 submission.csv。API 将为您生成此提交文件。

请参阅 Code Competition FAQ 以获取有关如何提交的更多信息。如果遇到提交错误,请查看代码调试文档。


三、数据说明

本次竞赛的目标是利用蛋白质丰度数据预测帕金森病 (PD) 的病程。PD 涉及的完整蛋白质组仍然是一个开放的研究问题,任何具有预测价值的蛋白质都值得进一步研究。数据集的核心包括从数百名患者的脑脊液 (CSF) 样本中获得的质谱读数导出的蛋白质丰度值。每个病人在多年的时间内贡献了多个样本,同时还进行了 PD 严重程度的评估。

本次竞赛是一个时间序列的代码竞赛:您将收到测试集数据,并使用 Kaggle 的时间序列 API 进行预测。

train_peptides.csv 是蛋白质质谱数据在肽水平上的表现形式,肽是蛋白质的组成部分。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码,通常每个蛋白质有几个肽。
  • Peptide - 肽中所包含的氨基酸序列。请参考此表格中的相关代码。一些罕见的注释可能未包含在表格中。测试集可能包含在训练集中未发现的肽
  • PeptideAbundance - 样品中氨基酸的频率。

train_proteins.csv 是从肽水平数据聚合的蛋白质表达频率。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码。通常每个蛋白质有几个肽。测试集可能包含在训练集中未发现的蛋白质。
  • NPX - 经过归一化的蛋白质表达。该蛋白质在样本中出现的频率。可能与组成肽的氨基酸并非一对一的关系,因为某些蛋白质包含重复的给定肽片段

train_clinical_data.csv 是临床相关的数据。

  • visit_id - 访问的 ID 代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • updrs_[1-4] - 统一帕金森病评分量表 (UPDRS) 第 N 部分的病人得分。较高的分数表示症状更为严重。每个子部分涵盖不同的症状类别,例如第 1 部分涵盖情绪和行为,第 3 部分涵盖运动功能。
  • upd23b_clinical_state_on_medication - 病人在 UPDRS 评估期间是否服用 Levodopa 等药物。预计主要影响第 3 部分(运动功能)的得分。这些药物的效果相当快(约为一天),因此病人在一个月内常常会两次接受运动功能测试,一次在服用药物的情况下,一次在未服用药物的情况下。

supplemental_clinical_data.csv 是没有任何跟脑脊液样本相关的临床记录。该数据旨在提供关于帕金森病的典型进展的额外背景。与 train_clinical_data.csv 相同的列。

example_test_files/ 里的文件旨在说明 API 功能的数据,包括 API 提供的相同列(即没有 updrs 列)。

amp_pd_peptide/ 里的文件使 API 能够运行。预计 API 能够在不到五分钟的时间内提供所有数据(少于 1000 个额外病人),并保留少于 0.5 GB 的内存。这里提供了 API 提供的简短演示。

public_timeseries_testing_util.py 是一个可选文件,旨在使自定义离线 API 测试更容易运行。有关详细信息,请参阅脚本的 docstring。


四、总结

竞赛题目:使用帕金森病患者的蛋白质和肽数据测量来预测疾病的进展

竞赛类型:数据挖掘、时间序列、回归预测

关键词:时间序列、帕金森进展预测、生物信息、数据分析、机器学习

在这里插入图片描述

赛题是一个典型的结构化数据预测赛题,拥有多张表,且是以患者作为样本,多了解一些相关的专业知识更好。

在解决题目时,需要考虑:

  • 支持多维输入的时序预测模型。
  • 模型训练和预测速度,以及可解释性。
  • 模型泛化性和鲁棒性。
  • 根据样本个数,应该是树模型和基础时序模型为主要的预测模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/9713.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于逻辑回归构建肿瘤预测模型

使用逻辑回归构建肿瘤预测模型 描述 乳腺癌数据集包括569个样本&#xff0c;每个样本有30个特征值&#xff08;病灶特征数据&#xff09;&#xff0c;每个样本都属于恶性&#xff08;0&#xff09;或良性&#xff08;1&#xff09;两个类别之一&#xff0c;要求使用逻辑回归&…

spring beancopier Cannot invoke “Object.getClass()“ because “cause“ is null异常处理

我们项目用到spring beancopier, 在别的机器上运行正常&#xff0c;代码拉到我机器上就不正常了&#xff0c;抛出异常信息如题。 Caused by: org.springframework.beans.BeanInstantiationException: Failed to instantiate [com.ibm.riskmeasure.rwaservice.service.singlete…

ASP.NET Core MVC 从入门到精通之初窥门径

随着技术的发展&#xff0c;ASP.NET Core MVC也推出了好长时间&#xff0c;经过不断的版本更新迭代&#xff0c;已经越来越完善&#xff0c;本系列文章主要讲解ASP.NET Core MVC开发B/S系统过程中所涉及到的相关内容&#xff0c;适用于初学者&#xff0c;在校毕业生&#xff0c…

字节跳动软件测试面试过了,起薪20k

普通二本计算机专业毕业&#xff0c;从毕业后&#xff0c;第一份接触测试的工作是在一家通讯小公司&#xff0c;大部分接触的工作是以功能测试为主&#xff0c;一直都是几千块钱工资&#xff0c;还一度被派出差&#xff0c;以及兼职各种产品、运维、运营的活&#xff0c;感觉自…

真1分钟搞懂缓存穿透、缓存击穿、缓存雪崩

&#x1f497;推荐阅读文章&#x1f497; &#x1f338;JavaSE系列&#x1f338;&#x1f449;1️⃣《JavaSE系列教程》&#x1f33a;MySQL系列&#x1f33a;&#x1f449;2️⃣《MySQL系列教程》&#x1f340;JavaWeb系列&#x1f340;&#x1f449;3️⃣《JavaWeb系列教程》…

NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027

然后我们来看连接与关系部分 然后右键一个关系可以看他的配置 注意这个,如果添加多个关系,这里flowfile就会自动clone 然后可以看到连接的配置中有,flowfile过期时间配置,有back pressure 背压配置, 有负载均衡配置 这里的这个FlowFile Expiration是配置FlowFile在队列中的过期…

网络中的一些基本概念

组建网络的重要设备 集线器,交换机(组建局域网,不能跨局域网组建网络),路由器(wifi本质上是无线路由器,路由器的本质的把俩个局域网给连起来) 网络通信的一些基础概念 IP地址 标识了网络设备所在的位置 端口号 标识了一个具体的应用程序 协议 协议是网络通信的概念,约定好…

虹科案例 | 虹科Domo商业智能,助力保险公司逃离繁杂数据池!

金融行业的发展充满着不确定性&#xff0c;一个具备强大承保能力和精算专业知识的资金池&#xff0c;对于身处该领域的公司和个人都是十分必要的。 在全国城市联盟&#xff08;NLC&#xff09;的协助下成立的NCL Mutual会员制互助保险公司&#xff0c;为各个地区城市提供了稳定…

第13届蓝桥杯省赛真题剖析-2022年4月23日Scratch编程初中级组

[导读]&#xff1a;超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成&#xff0c;后续会不定期解读蓝桥杯真题&#xff0c;这是Scratch蓝桥杯真题解析第121讲。 第13届蓝桥杯省赛举办了两次&#xff0c;这是2022年4月23日举行的第二次省赛&#xff0c;比赛仍然采取线上形…

MySQL SQL性能分析 慢查询日志、explain使用

SQL执行频率 MySQL 客户端连接成功后&#xff0c;通过 show [session|global] status 命令可以提供服务器状态信息。通过如下指令&#xff0c;可以查看当前数据库的insert、update、delete、delect的访问频次&#xff1a; -- session 是查看当前会话; -- global 是查询全局数…

paddle实现手写数字识别模型继续解读

要点&#xff1a; 手写数字识别用简单的线性进行分类效果比较差&#xff0c;添加卷积层和池化层效果会相对较好。参考文档&#xff1a;百度官方文档 一 网络结构 前几节我们尝试使用与房价预测相同的简单神经网络解决手写数字识别问题&#xff0c;但是效果并不理想。原因是手…

7.1 基本运放电路(1)

集成运放的应用首先表现在它能构成各种运算电路上&#xff0c;并因此而得名。在运算电路中&#xff0c;以输入电压作为自变量&#xff0c;以输出电压作为函数&#xff1b;当输入电压变化时&#xff0c;输出电压将按一定的数学规律变化&#xff0c;即输出电压反映输入电压某种运…

Msray-Plus采集工具帮您轻松获取目标受众的数据,让您的市场营销更加便捷

市场营销是企业推广产品和服务的重要手段之一&#xff0c;是企业获取客户和提高销售业绩的关键环节。然而&#xff0c;传统的市场营销方式存在着很多弊端&#xff0c;如缺乏数据支持、信息不准确、效率低下等问题&#xff0c;这些问题直接影响了企业的市场营销效果。而随着互联…

【Redis学习】Redis集群

理论简介 定义 由于数据量过大&#xff0c;单个Master复制集难以承担&#xff0c;因此需要对多个复制集进行集群&#xff0c;形成水平扩展每个复制集只负责存储整个数据集的一部分&#xff0c;这就是Redis的集群&#xff0c;其作用是提供在多个Redis节东间共享数据的程序集。…

Python中的主函数

在Python代码中&#xff0c;我们常常看到主函数是以if __name__ __main__开头的&#xff0c;比如 它的原理是什么呢&#xff1f; 首先要知道&#xff0c;__name__是内置变量&#xff0c;用于表示当前模块的名字。在一个模块中运行以下语句&#xff0c;你会发现输出的是__main…

elasticsearch 核心概念

1.近实时&#xff08;Near Real Time,NRT&#xff09; elasticsearch 是一个近实时的搜索和分析平台&#xff0c;这意味着从索引文档到可搜索文档都会有一段微小的延迟&#xff08;通常是1s以内&#xff09;。这种延迟主要是因为 elasticsearch 需要进行数据刷新和索引更新。 …

基于目标级联法的微网群多主体分布式优化调度(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

餐饮店的运营需要考虑哪些方面

餐饮店的运营需要多方面的考虑和规划&#xff0c;以下是传递宝APP上一些常用的餐饮店运营方法&#xff1a; 1.定位&#xff1a;明确餐饮店的定位和目标客户群体&#xff0c;针对不同的客户需求&#xff0c;提供个性化的服务和产品&#xff0c;比如是附近的上班族&#xff0c;还…

Android:NDK

3.1 NDK 一、NDK的作用 &#xff08;1&#xff09;、NDK产生的背景   Android平台从诞生起&#xff0c;就已经支持C、C开发。众所周知&#xff0c;Android的SDK基于Java实现&#xff0c;这意味着基于Android SDK进行开发的第三方应用都必须使用Java语言。但这并不等同于“第三…

JVM 、JDK 、JRE都是什么意思?有什么区别?

摘自 JavaGuide &#xff08;「Java学习面试指南」一份涵盖大部分 Java 程序员所需要掌握的核心知识。准备 Java 面试&#xff0c;首选 JavaGuide&#xff01;&#xff09; JVM Java 虚拟机&#xff08;JVM&#xff09;是运行 Java 字节码的虚拟机。JVM 有针对不同系统的特定实…