大数据将促发创新、发现和发明的喷涌
喻建国
数据、海量数据、大数据,描写某一个量的多少的数字形成数据,而海量数据则说明数据数量之多,大数据则揭示数量多到一个崭新的程度。在过去很长的历史阶段,人们获得某一个量的数据值都不会上万,就是经验再多的人,他在某一个量上所积累的数据值往往也顶多上千。可是二十世纪末这种情况发生了根本的变化,进入二十一世纪,更是一泻千里,几乎可以对任何一个量的观测数据和积累数据都可以超万。
一天之中,互联网产生的全部内容可以刻满1.68亿张DVD,发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB (1024EB=1ZB)级别。
去看看早年那些心理学家的研究,他们仰靠的观测数据的数量值是何等可怜,现在心理学家可以通过大数据,从中找出规律性的心理现象,找出这些心理现象发生的缘由。美国心理学家埃里克森曾经提出过一个观点:一个人要想在某一领域中获得成功,必须在这个领域中经历1万小时刻苦而又专业的练习,把这1万小时摊派到平时的岁月中,以每周练习20小时计,也就是需要10年。伦敦国王学院的行为遗传学家罗伯特·普罗敏通过数量观测,在5474对16岁左右的双胞胎全英统考的成绩中进行分析,发现在核心科目即英语和数学的考试成绩58%取决于个体的基因,而学校、教师和家长等等因素在其中所占的比例仅为36%。从这一结论中可以清晰地看到埃里克森的观点已经被彻底推翻。不同基因的人在相同领域中要获得成功,用时不会是相同的,他们会有很大的差异。这些差异主要来自不同个体的基因。
在互联网上有大数据,如果能够迅速将某些大数据分类加以集中并进行分析,科学研究将进入一个完全崭新的时代,即使很平凡的人也可以通过大数据,进入一个很小的领域,进行数据分析,而得到某一运转的规律,而在过去这些数据是完全不可能获得的,而在不断发展的互联网时代,这些数据的获得将变为可能。
发明一个软件,可以将互联网上的大数据按照特定的小领域集中,这一软件的出现,将惠及许多普通人,他们能够很快地成为在某一小领域中有所发现的人。世界上有那么多的普通人,普通人中有那么多对各种小领域感兴趣的人,他们如果有很大的一部分投入到使用这一软件的行动中,科学发现的数量可能也会像数据喷发般,从GB 级跳到TB级,从TB级跳到PB级,从PB级跳到EB级,从EB级跳到ZB级。
人类创新发现发明的喷涌时代即将来临,让我们伸开双臂去热烈地拥抱它。那一个国家最先投入,那一个国家就最先得益。不过最终将是人类共同得益,因为人类安全移动距离的速度也就因此会很快迈入