大数据时代如何从海量信息中挑选有用信息行业资讯
2013-09-11 来源:机房360 编辑:佚名
正如美国经济学家、诺贝尔经济学奖得主保罗·克鲁格曼曾讲到的那样,20世纪70年代是典型的“大量理论堆积如山,验证数据少得可怜”的时期。当时,人们已经开始用计算机制作地球
可以这样说,我们所拥有的信息已经太多,甚至多到无从下手,但有用的信息却是寥寥无几。我们主观地、有选择地看待信息,但对信息的曲解却关注不够。我们以为自己需要信息,但其实我们真正需要的是知识。
但是,一旦信息增长的速度过快,而我们处理信息的能力尚且不足,情况就很危险。过去40年的人类历史表明,把信息转变为有用的知识可能还需要很长时间,一不小心,我们就有可能倒退回去。
正如美国经济学家、诺贝尔经济学奖得主保罗·克鲁格曼曾讲到的那样,20世纪70年代是典型的“大量理论堆积如山,验证数据少得可怜”的时期。当时,人们已经开始用计算机制作地球模型,但是一段时间以后,人们发现这些模型太过粗劣,而且与实际不符,计算机可达到的精确度根本无法替代预测的准确度。这一时期,人们做过很多大胆的预测,涉及范围从经济学到流行病等各个领域,但是这些预测通常都不准确。比如,1971年,人们声称可以预测出未来10年内的地震次数,而实际上,这在40年后的今天仍实现不了。
其实,没有预测到“9·11”恐怖袭击事件并非信息匮乏,正如60年前的“珍珠港事件”一样,其实所有的信号都在那里,只是没能将它们联系起来。近期,对全球金融危机的预测也总是失败。我们天真地相信各种预测模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。
近年来,人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。福岛核反应堆的设计可以抵抗8.6级地震,因为一些地震学家称不可能发生更高级别的地震。但是,2011年3月日本却发生了9.1级的特大地震。
同时,如果信息的数量以每天250兆亿字节的速度增长,其中有用的信息肯定接近于零。大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。有太多假设需要验证,有太多数据需要发掘,但客观事实的数量却是个相对恒量。
但是,一旦信息增长的速度过快,而我们处理信息的能力尚且不足,情况就很危险。过去40年的人类历史表明,把信息转变为有用的知识可能还需要很长时间,一不小心,我们就有可能倒退回去。
正如美国经济学家、诺贝尔经济学奖得主保罗·克鲁格曼曾讲到的那样,20世纪70年代是典型的“大量理论堆积如山,验证数据少得可怜”的时期。当时,人们已经开始用计算机制作地球模型,但是一段时间以后,人们发现这些模型太过粗劣,而且与实际不符,计算机可达到的精确度根本无法替代预测的准确度。这一时期,人们做过很多大胆的预测,涉及范围从经济学到流行病等各个领域,但是这些预测通常都不准确。比如,1971年,人们声称可以预测出未来10年内的地震次数,而实际上,这在40年后的今天仍实现不了。
其实,没有预测到“9·11”恐怖袭击事件并非信息匮乏,正如60年前的“珍珠港事件”一样,其实所有的信号都在那里,只是没能将它们联系起来。近期,对全球金融危机的预测也总是失败。我们天真地相信各种预测模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。
近年来,人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。福岛核反应堆的设计可以抵抗8.6级地震,因为一些地震学家称不可能发生更高级别的地震。但是,2011年3月日本却发生了9.1级的特大地震。
同时,如果信息的数量以每天250兆亿字节的速度增长,其中有用的信息肯定接近于零。大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。有太多假设需要验证,有太多数据需要发掘,但客观事实的数量却是个相对恒量。