云计算平台:降低人类解读基因的成本 云和虚拟化

2014-10-24    来源:36氪    编辑:佚名
目前,利用 Illumina 等公司的新一代基因测序技术,要得到比较准确的信息,一般认为 30X 的基因测序深度是必须的,所以一个人的基因组检测大约需要产生 90Gb 的数据。如此大的数据,

   目前,利用Illumina等公司的新一代基因测序技术,要得到比较准确的信息,一般认为 30X 的基因测序深度是必须的,所以一个人的基因组检测大约需要产生 90Gb 的数据。如此大的数据,在一般的电脑或小型服务器上运行起来非常困难。所以,像基云惠康这样的生物信息分析创业公司开始开发基于云计算的技术平台和工具,利用云计算的优势降低成本,提高数据分析的速度。

    人的基因有多少?在人的30亿个碱基序列中包括了21000 个编码蛋白质的基因,每个基因的功能都不太一样,有控制发育的,有控制运动的,有帮我们抵抗传染病的。当然,也有能导致肿瘤、白血病的。同时,很多基因不止一个功能,同一个基因在很多功能中起着不同的作用。我们人类这 21000 多个基因大部分每个人都有,但同一个基因的序列在不同的人身上会有差异,这个差异就导致了千人千面。比如 BRCA1 基因在每个人的基因组上都存在,但像安吉丽娜朱莉的BRCA1基因序列与其他人就不太一样,她带的这个基因更容易导致乳腺癌和卵巢癌。所以,她提前动手,切除了乳腺,摘掉了卵巢,以免自己的孩子将来遭受丧母之痛,大爱。

    基因的研究在不断的进行中,很多基因的功能还未知,已知功能的基因不断发现有新功能,目前的研究基本上就是收集一定量样本,把表型数据与基因型数据进行关联分析,从而发现与表型有关的基因及其功能。但在大数据时代,科研的模式会逐渐发生变化。

    回到 Illumina 收购 NextBio公司。NextBio的平台让客户能够利用独特的关联引擎来比较实验数据和现有的数据集,从而发现新的关联。它使用高度扩展的软件即服务(SaaS)企业技术,能够分析PB级的数据。Illumina 的 CEO Jay Flatley 表示:“NextBio 实现了单一环境下表型和临床数据的分类和汇总,以前所未有的速度和规模进行数据分析。Illumina BaseSpace 云计算环境与 NextBio 平台的融合,将让我们能够提供解决方案,无缝整合从样品到结果的整个流程”。

    这也解释了我上次见到 Jay Flatley 时问他的那个问题:为什么 Illumina 收购了 NextBio,而没有收购 DNAnexus?因为 Illumina 需要表型数据。

    表型数据多种多样,如发型颜色,头发弯曲还是直的,眼皮单双,身高、体重、血压、心率、血糖、皮肤特点、眼球颜色、指纹、鼻梁、嘴型、呼吸、眉毛等等,这些是比较容易看见或容易测量的特征。人体并不是一个固定不变的生命体,每个细胞内是不同的,各种组织器官基因变化的数据是一个不断变化的过程,形成了多种多样的表达谱。

    《失控》的作者 KK(凯文·凯利)是全球“量化自身”(Quantified Self – QS)运动的发起者。如今,全球已有 500 多个量化自身运动的 Group 在不定期交流。量化自身产生了各种各样的数据,特别是可穿戴设备最近如火如荼。它对人体表型数据的获取从原来去医院、体检中心的单点、间断检测模式变成了 24 小时的连续检测模式,数据的完整性提高,更加客观反映生命的体征,同时也意味着数据量更加庞大。

    大数据是生命的基本特征,对于生命体征的量化,基因组是最基础、最核心的数据。对于基因数据、众多体征数据的整合、挖掘、利用将会是未来健康大数据的一个努力方向,从而让预防和大数据在大健康领域发挥巨大作用。

1
3