您现在的位置是:首页 > 文章详情

【译】使用Spark SQL 运行大规模基因组工作流

日期:2019-07-06点击:636

https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html

编译:诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

使用Spark SQL 运行大规模基因组工作流

genomics_reader_writer_image3

在过去十年中,随着基因组测序价格下降,可用基因组数据的数量逐渐激增。研究人员现在已经能够从英国生物银行等项目的数十万人群中探测遗传变异和疾病之间的关联。这些分析将使人们更深入地了解疾病的根本原因,从而治疗当今一些主要的疾病问题。但是,目前用来分析这些数据集的工具还没有跟上数据增长的步伐。
 
许多用户习惯于

原文链接:https://yq.aliyun.com/articles/707989
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章