如何抓住一片云:云计算成科学家宠儿
2015-06-15 中国科学报 编辑:张章
计算机学家Mark Howison正在准备分析提取自24个管水母目动物的RNA,这种海洋动物与水母和珊瑚关系密切。但美国罗得岛州布朗大学的本地高性能计算机在维修之后并没有恢复充分的可靠性。于是,Howison决定使用亚马逊的弹性计算云。两个小时后,Howison配置了一台虚拟计算机运行他的软件,并上传了管水母目动物的序列。14小时、花费61美元,分析完成。
越来越多像Howison这样的研究人员,选择从亚马逊和谷歌等商业供应商手中在线租借计算资源,而且不仅仅限于紧急备份。2013年,美国国家科学基金会(NSF)资助的一项调查显示,云为实验室提供了接触到它们难以从其他地方获得的计算能力。需要强大计算能力的科学家只需要租借额外的计算能力,而非购买永久硬件。
科学家能配置云环境,以适应自己的需求。尽管云计算不能处理需要最先进超级计算机进行的分析工作,或机器间的互联,它可能只适合太大而无法在台式机上完成或太小而不值得使用高性能超级计算机的项目。而且,在线工作让研究团队可以更容易地展开合作,分享数据的虚拟快照、软件和计算配置。
但将科学转移到云上,并不是一个轻松的任务。“你需要一个技术背景。针对一个像科学家这样的终端用户进行设计,这并非易事。”Howison说。尽管活化能量可能较高,但这里为尝试为自己的研究或实验室配置云环境的科学家推荐了路径。
大部分云平台都要求使用者具备基本的计算机技术。例如,理解命令行是如何工作的,以及能熟练使用操作系统和文件结构。一旦研究人员拥有了坚实的计算机基础,下一步就是尝试在云中工作了。
普吉特湾大学植物生物学家Andreas Madlung表示,部分对科学家而言容易使用的云可能是Atmosphere平台。他参与创建了名为iPlant的协作网络基础设施项目。这个由NSF资助、美国3所大学和冷泉港实验室领衔的项目,自2008年起,就帮助科学家分享软件和进行免费分析。
考虑到科学家的需要,该平台的界面设有预先载入的软件、一系列操作数据集和讨论区,以便用户彼此帮助解决问题。Madlung还负责教授生物信息学本科课程,其中就包括云计算的章节。他首先向学生介绍了Unix操作系统,然后让他们使用相关知识在Atmosphere平台分析RNA序列数据。
那些注册iPlant的用户,被自动分配到每月约168小时的处理时间。而且如果有需要,用户还能申请更多时间。用户能加载携带其需要的额外软件的虚拟计算机,并且如果一项工作对于标准设备而言过于繁重,任务会被卸载给得克萨斯高级计算中心的超级计算机。
加州大学戴维斯分校生物学家Mike Covington由于超载使得服务器频繁崩溃,后将自己实验室的计算工作转移到了iPlant。他还制作了自己的虚拟计算机副本,以便合作者和iPlant的用户能登入和使用相同的软件、数据和计算结构。“如果我能花费数小时设置好自己的虚拟计算机并完美地进行de novo基因装配,我也能迅速并简便地让其他希望进行相同工作的科学家使用它。”Covington说。
而这些虚拟快照可能成为那些需要计算工作的项目的标准。例如,任何需要复制一篇论文中的微生物基因组分析的人,都能使用作者在亚马逊云上提供的虚拟计算机快照,只需要支付使用时间费用。
对于一些研究人员而言,选择一个云平台是简单的。自2013年起,欧洲核子研究委员会的科学家就开始使用一个大型的内部云平台,康奈尔大学和圣母大学等机构也在开发云计算。而布朗大学进化生物学家Casey Dunn更喜欢培训学生使用商业平台。“当他们在其他地方开始博士后工作或拥有自己的实验室时,他们仍能登录亚马逊。”他说。
斯坦福大学基因组学和个性化医疗中心生物信息学部门主任Somalee Datta就正在使用谷歌的云平台——而非仅仅依赖斯坦福大学的计算服务——支撑该中心庞大的基因数据和计算需求。她说,选择谷歌的原因有几个:该公司研发者积极为基因组研究开发工具,谷歌在卫生保健研究方面也展示了兴趣,并且价钱合理。
对于Datta和其他人而言,围绕云计算的一个重要议题是安全性。“这是一个极大的关注点。”她说,“黑客知道什么是有价值的,他们将把注意力集中在这里。”而且,Datta认为云计算并不比其他计算机网络安全。例如,一所大学的云系统仅像其防火墙一样坚固。
困扰打算进入云平台的研究人员的另一个问题是所需要的技术支持水平。获得在新系统上运行的软件可能需要数天,并需要反复尝试计算能力或虚拟计算机的记忆能力。尽管所有云服务者都提供培训和教程,但专门的技术服务人员在拥有校园云的大学中更为常见。
尽管存在挑战,但云计算正吸引着越来越多的科学家投身其中。Dunn表示,这并不令人惊讶,“几乎所有的计算机产品消费者都拥有一个云,可能是移动应用程序、流媒体服务或桌面工具”。