匿名电子病例信息不全?深度学习能更好的判断出种族(代码开源)
匿名电子病历(EMR)是越来越受欢迎的研究数据来源。然而,这些数据集通常缺少人种和种族信息。这给人类疾病的研究人员造成了困扰,因为人种和种族对许多健康风险和治疗结果有着重要的影响,另外也跟人口特异性遗传变异密切相关。
为此,来自普林斯顿大学的Ji-Sung Kim,以及来自芝加哥大学的Andrey Rzhetsky共同展开了一项新的研究,并把研究工具RIDDLE进行了开源。
RIDDLE是一个开源的Python2库,用于使用深度学习方式在匿名电子病历中估算人种和种族信息。
Kim和Rzhetsky使用了来自芝加哥和纽约的EMR数据集,总共描述了超过150万名患者,约有1.5万个特征,包括:性别、年龄、临床事件观察(编号为ICD9代码)。
在这个研究中,他们发现深度神经网络比其他方法(例如逻辑回归、随