Mimic-III 数据库挖掘探索——连续性肾脏替代治疗(CRRT)
前言
上个月建库成功,至今一个月过去了。
因为没有服务器,在本地电脑反复建了几次,linux系统/windows系统一应俱全[苦涩]。原始库和衍生库都建好了,数据基本备齐。
库建好了之后,又开始捡起之前的sql句子,开始库里面内容的探索。。。100多G的数据,不知道算不算大。。。
记得,六七年前跟随咨询团队去良品进行零售数据分析时用过了SAS的SQL句子,现在都1202年了,SAS也都出免费版了,良品也都上市了。而我还在苦逼的码代码,进行大数据挖掘。。。一边吃着良品的零食[苦涩]。从零售数据到医疗数据,也算是回归本业了,没想到那时学的一招半式还能派上用场。
数据分析的大概步骤
处理mimic库数据的过程大概步骤是:
- 根据你的想法,挑选对应的病人(ICU病人)集合;
- 根据你的想法,确定你要分析的X(自变量,指标)~Y(因变量,结局);
- 手动写SQL句子,获取对应病人集合的一个个Y数据;
- 对X~Y进行相应的分析。
打勾就能导出数据的系统搭建
前面的第一二点,就是立题啦,就是你睡不着的时候突然冒出来的想法。
第三点:重复性的查询数据,比如:要获取病人的性别
-- get the basic info of patients
drop table if exists crrt.gender;
create table crrt.gender as
select i.*,p.*
from crrt.id i inner join mimiciii.patients p
on i.subject_id =p.subject_id
呃,要写好多重复性的这种句子。。。很麻烦。
要是这些指标,能打个勾就选给我就好了!呃,然后我对这个想法激动不已!
然后就花了一个星期时间,打造了这么一个系统:《打勾就能选到你要的mimic数据》。
CRRT病人的数据提取示例
插播广告:
连续性肾脏替代治疗(CRRT)是一种体外血液净化的治疗技术,是所有连续、缓慢清除水分和溶质治疗方式的总称。可治疗的疾病已从肾衰竭扩展到肾外领域,比如急性肾功能衰竭(ARF)、呼吸窘迫综合征(ARDS)、挤压综合征(CS)、多器官功能障碍综合征(MoDS)、急性坏死性胰腺炎(ANP)等。其治疗目的不仅局限于替代功能受损的肾脏,当前已扩展到常见危重疾病的救治,成为各种危重疾病救治中最重要的救治手段之一。这种治疗不仅仅是替代、改善肾脏功能,而在于对病人的支持和对其他器官衰竭的治疗,以延长病人存活时间,为多器官功能的恢复包括肾脏功能的恢复创造了条件。CRRT在经典的治疗模式基础上出现了一系列崭新的治疗,它代表了一个治疗理念的转变。当前,CRRT被广泛应用于重症疾病救治,是当今急危重症患者的主要治疗措施之一,与呼吸支持、循环支持及营养支持一起并称为ICU四大支持技术。
数据分析大概过程如下:
第一步:输入你要的病人icustay_id号。这里黏贴所有行CRRT病人的ID。
第二步:进入原始库,勾选你要的数据指标,比如性别等等,打勾(想点哪里点哪里)–》获取数据!(这个界面的每一个汉字都是我手动输入的。。。)
第三步:进入衍生库,勾选你要的指标,打勾,导出!
然后你会得到一堆数据:
把这些数据导入到R里面,形成一个完整的表:
然后就可以进行分析啦!
最后看一下,用CRRT设备的时长与病人在医院的死亡率:
可以看到:CRRT的时间越长,病人的存活越高(废话)。看到最后那个病人没?上了150多天的CRRT,在医院活过来了!
系统很简单,但是满足了我绝大部分的数据提取需求。以后再慢慢完善。
后记
以上是补发之前2021年的内容,回头看这都过去3年了。这个系统我们拿了两个软著和好几篇文章,甚至TOP期刊,还是对得起时间的付出。
今天,这个系统对大家开放了,地址:https://clinicaldata.fun/。
很多功能也在逐步完善。