郭华东:科学大数据驱动学科发展行业资讯

2014-05-23    来源:机房360    编辑:佚名
在第六届中国云计算大会全体会议上,中国科学院院士,中国科学院遥感与数字地球研究所所长,中国大数据专家委员会副主任委员郭华东发表了题为“科学大数据驱动学科发展”的演

  第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本次大会立足实践,以国际化的视野,帮助与会者了解全球云计算技术的发展趋势;从应用出发,探讨交通、医疗、教育、金融、制造、数字娱乐等行业领域的实践经验;并通过技术专场、产品发布和培训课程等方式,深度剖析云计算大数据的核心技术。

  在第六届中国云计算大会全体会议上,中国科学院院士,中国科学院遥感与数字地球研究所所长, 中国大数据专家委员会副主任委员郭华东的演讲主题是“科学大数据驱动学科发展”,他表示,IDC的“数字宇宙”研究报告指出,全球数据总量将以每两年翻一番的速度持续增长,中国所拥有的数据在国际上举足轻重。以数字地球为例,互联网和3D技术的深度普及,遥感、地理信息技术和对地观测技术的高速发展,大数据和数据密集型科学的问世加速了数字地球进程,从而完成了“地球装进计算机”向“地球大数据”的变迁,在全球气候变化、救灾减灾、食品安全、新能源开发和解决城市发展等方面有了突破性进展。

  中国科学院院士,中国科学院遥感与数字地球研究所所长, 中国大数据专家委员会副主任委员 郭华东

  以下为现场实录:

  主席、各位嘉宾、各位代表,在过去的一天多时间以来,我们很多的专家就云计算大数据的核心技术问题、方法论在经济社会有关领域的应用,及我们这个领域的发展与前瞻作了系统的介绍。我的介绍就是讲一讲大数据和学科的发展,主要是讲讲科学大数据对于学科的驱动,特别要讲一下对于我们数字地球驱动的发展情况。从三个方面来叙述一下,第一个就讲大家非常重视的大数据本身,然后讲讲科学范式,最后讲讲学科的发展。

  这张表我想很多专家都非常熟悉,主要讲发展的历程,红色的字大家都反复的在这儿进行研讨,从红字的表征上来看,数据变得多么重要,发展越来越对学科的驱动起着不可代替的作用。

  这张片子介绍了发展到今天,我们在科学研究的各个领域正在对数据的发展有着什么样的需求,数据在科技领域是一个什么关系,这个关系实际上讲数据就是科技领域飞速发展的产物,无论是我们做大科技技术,还是全球正在关注的对人类的发展带来重大挑战的等等数据扑面而来。

  上个月IDC发布第七份数字宇宙的研究报告4.4ZB增加到44ZB。去年只有20%的数据与我们今天讨论的云相关,几年之后将翻倍至40%,这是一个非常重要的数据。数据如此重要,当然对中国,这张片子可以说更加重要,为什么呢?因为全球数据的分布,中国占了13%,这是现状。6年以后,全球21%的数据将在中国,五分之一的数据,这一点太重要了,我们说中国拥有的数据在国际上举足轻重。

  讨论大数据,我想在座的都非常熟悉,我只是从我个人的角度,从我们领域发展的角度讲一讲大数据的发展演化,甚至是未来,回顾到上世纪末期,1997年第一篇大数据文章的起源,然后04年里程碑式的发展,06年它起到的作用,到了2011年,大数据的成功。

  科学领域其实对这个事情非常的重视,早在6年之前在我们科技领域,大家最为尊崇的两大期刊,一个是《自然》,一个是《科学》,《自然》对我们中国人来讲,很多人都知道做了生命起源,做了一个动物的故事等等,这样的文章很多,像大爆发,像东北鸟的起源等等,大家不要忘了6年前《自然》杂志出版了大数据的专刊。09年,《第四范式》出版,是一个非常重要的里程碑,2010年《无处不在的数据》,到了3年前《科学》专刊也出来了。以后科技界的重视、全球的重视,引起了联合国足够的重视,联合国的一个报告白皮书《大数据促发展,挑战与机遇》,紧接着两年前高德纳的4V定义,同时在我们这么一个领域,我们也发表了一篇文章,提出了大数据与数字地球的关系。

  我们这些年来历经的事情太多,我记得有一位尊敬的学者曾经讲信息科学的发展使人们难以预料,如果你想让哪一个人犯错误,那么你就让他预测5年以后信息技术的发展,作为我们云计算、作为大数据实际上也是同样的原理,看我们的大数据目前在哪个位置上,对我们将来对它的研究是非常重要的。可以看到,将来这个趋势应该是一个可期的好的状况。

  发展得很坚实、发展得很快,于是政府层面高度重视这一点,这里面举了几个国家和国际组织。坦率的说,我们国家尽管在有些报告上目前做大数据热度最高的国家是印度,但是我们国家我认为有关决策部门对这件事的重视程度相当高,特别是近一两年反映在我国部署的973计划、863计划,也包括我国的经信委也在部署大数据科学计划,也包括我们的一些领域,工业部门和一些地方也在做同样的计划。

  同样在国际组织上,我们可以看到也在不断的推动发展和全球计划,OECD发布的《探索数据驱动型创新》报告,指出利用数据来刺激提升生产力,充分发挥大数据的潜能,造福人类,进一步阐述了大数据未来的潜力和作用。

  国际科联其实在2011年之前就开始做战略规划,在2012—2017年的战略规划中特别强调了数据、信息对于科学驱动的着手,数据中间特别强调了大数据的作用。

  作为国际科联的一个委员会,CODATA其实就是国际科联科学数据委员会,也专门召开了一个大数据会议,CODATA、DWS等三个最重要的数据组织,同时邀请了国科联的未来地球计划,邀请了我们为期十年的全球综合减灾计划,也邀请了83个国家和72个国际组织构成的一个政府间国际组织,以及我在的中科院遥感数字研究所一起来召开这么一个会议,就是说大数据到底对我们的学科发展能带来什么,大数据如何为全球的科学计划起什么样的重要作用,对这些方面进行了研讨。

  为了做这样的研讨,在全球范围内我们做了一些基础性的工作,比如说以BIGDATA为关键词,现在检索的相关文章一千多篇,半数都是SCI收录的文章。从国家分布来看,如果说以40篇为一个界限,超过40篇的大家看到有这么七个国家,中国其实有181篇,所以我们在研讨的时候,讲到印度热度很快,从文章发表来看,中国居全球第二,应该说中国对大数据的研究发展还是鼓舞人心的,但是我们还要进一步的做。

  去年7月,习近平总书记视察中国科学院讲了一句话,也令我们深受鼓舞,讲到大数据是工业社会的“自由”资源,谁掌握了数据,谁就掌握了主动权,一个最高领导讲这样的话,其实看出来他对大数据的高度重视。

  下面就讲大数据科学范式的转化,关于大数据的定义,大家有了很多定义,当然还在不断的探讨之中,其中4V是大家感兴趣的重要话题。大家我们想说大数据时代以及大数据计算的本质特征在于从模型驱动到数据驱动范式的转变以及数据密集型科学方法的确立。

  你可以看到咱们科学范式的转化,几千年前以实验为手段描述自然,数百年前利用模型和归纳方法进行论证的分支出现了。过去数十年进行计算分支仿真模拟。现在当大数据时代到来的时候,将理论、实验、计算仿真等统一起来形成了新的密集计算。

  举一个例子,是一个很久远的故事,喜欢天文的先生们都知道第谷,他的助手开普勒建立了一个伟大的理论。这中间我们描述大数据与大科学是一个什么样的关系,然后大科学中我们要有系列的知识发现,讲方法论、讲挑战,这种挑战我们规定为三个H。

  大科学装置要催生带领一系列的大数据,以我所在的单位为例,每天在诞生大量的卫星和航空数据,但这样的大科学投资强度大、学科交叉,产生的大数据其实为大科学的诞生奠定了坚实的基础。比如说在咱们高能物理领域,每年投入这么多,每年重要的是产生这么多数据,这些数据为科学家带来了重要的机遇,所以“上帝粒子”的产生和发展与大数据有着重要密切的关系,因为是需要通过分析和推断“上帝粒子”是否存在,从数据和图形的分析中来揭示这些现象。

  人类基因组是一个伟大的计划,如果没有大数据现在回过头来看,很难说人类基因组会有丰富的成果。大家可以看到我们有这么多人在做这么多产生序列的数据,需要很多的存储、分析和计算能力去完成。人们说我们正在面临着全球变化的严峻挑战,不仅是全人类、全球,我们中国也面临全球变化的挑战,将来解决全球变化的一些重要问题是什么?核心的关键是什么?其实还是要依靠我们的数据,而且是与地球变化相关的一些综合性的数据,不管搜集这些数据,还要预测未来的一些模拟数据,一起建立在大数据基础之上预测未来的数据变化,一百年之后全球是变暖了,还是变冷了,十万年之后,人类是否还能在地球上居住,其实都要靠这些去建立,应该说这些数据为气候的长期变化都可以提供坚实的基础。

  大数据与天文,这方面的例子不胜枚举,我们从地面对天文的观测,建立在大数据的基础之上。有了大数据,也就相当于拥有了各种探测设备一样,这么一个重要性。

  简而言之可以看看科学大数据一些非常重要的特征,复杂性、综合性、全球性等多种特点融于一身。大数据特别是科学大数据也有若干外部特征,从内容、体量、速率、手段等等来讲,具备着五大特征。它的内部特征刚才讲了,超高维度、高度计算复杂性、高度的不确定性。大数据研究方法论一个是量、一个是质、一个是用,三个方面互为因果、互相促进。

  第三部分,以数字地球为例,讲讲大数据如何促进我们地球的发展。中国科学家发起召开了国际第一次数字地球会议,可以看到数字地球传播的基础,因为它有坚实的科学内涵。回顾到15年之前,走向数字地球会议召开,当时一个重要的产出是数字地球北京宣言,而且形成了数字地球的系列会议。自那以后,我们已经在全球举办了十几次数字地球国际会议和数字地球高峰会议,它的足迹遍布几大洲。一个新的方向,一个领域,它有一个国际组织,在06年,国际数字地球学会也诞生了。一个学会应该有自己的刊物,我们也创建了《国际数字地球学报》的刊物,现在发展势头良好。数字地球在全球范围内的科学研究成果也可以说是硕果累累,包括我们中国做的数字地球研究系统也发挥了一系列的作用。

  综上所述,可以看到数字地球发展的里程碑,过去15年来长足的发展,应该说当年提出的数字地球的理念85%已经实现了,未来数字地球走向何方?这是我们面临的一个问题。

  数字地球要建立,我们基于什么?基于多方面的数据,其中对地观测数据非常重要,当我们在这里开会的时候,我们头顶上若干卫星在搜集着全国、全球的数据。过去半个世纪以来,国际的对地观测卫星的发展一浪高过一浪,从最早全球14个卫星发展到现在每年都有十几颗卫星上天。可以看到中国未来十年对地观测卫星的发展,我们响亮的提出,中国遥感卫星的数量未来要居世界前列,我们要发射一系列遥感卫星和其他卫星。不仅发射我们中国的卫星,我们有强大的接收能力,我所在的遥感地球所的地面接收系统,覆盖全国,也能够接收覆盖亚洲将近70%的数据,最近还要在北极建站,实现一个理念,国家的利益延伸到哪,我们的空间信息保障能力就建立在哪。

  可以看出来,数字地球的数据系统包括了空间数据,包括了数据平台这么几个部分,然后他有不同的特征,这些特征从体量上EB级,从类型上看多种多样,实施性强、更新快,数据价值密度较低。所以,15年前第一次大会我当秘书长,《计算机报》的记者问我什么是数字地球?我说我真不懂,但是要让我讲给中学生听,数字地球就是把我们的地球装进我的计算机。15年前过去了,现在从科学角度来讲,你问我什么是数字地球?我可以从一个角度来讲,数字地球就是地球大数据。所以,《国际数字地球学报》请我写一个编者按,这个编者按就是数字地球,地球大数据,这就是一个观点。

  依据这个新的观点,数字地球一些理念出来了,关于新一代数字地球就是这么一个理念。研究探讨数字地球的一系列科学问题,包括大数据的动态汇聚,包括数据密集型的地球计算,包括要素的呈现理论与方法等等。做所有的理论研究、做所有的高技术发展,特别对我们这样一个发展中国家最终还是要用在我们经济社会发展的一些领域,将来新一代数字地球构造起来做什么呢?我们在这儿特别提炼五个重要方向,一个就是与全人类密切相关的全球变化问题,第二个是人人都关心的减灾防灾问题,第三个是新能源的开发利用,第四个是人人都关注的农业食品安全,再一个就是我们都关注的这些数字城市和智慧城市的发展。这将是新一代数字地球应用的五个重要方向。

  所以,从大数据的理念来构造新一代的数字地球,其实还是建立一个虚拟地球,虚拟地球事实上服务于未来的地球,当然这个未来的地球可以说我们从现在作为原点,未来十年、百年、千年的地球。再一个,国科联提出一个新的十年的未来地球计划,就是做全球环境的可持续发展计划,我们生活在这个地球上,都有责任和理念来建立我们未来的数字地球,让我们人类的生活更加美好。谢谢各位!

1
3