今年以来,大数据(big data)一词越来越多地被广泛提及,并成为继物联网、云计算之后IT业界争相追逐的焦点。同时,伴随着大数据浪潮的汹涌来袭,其更成为在全球范围启动透明政府、加速企业创新、引领社会变革的利器。
在近期的美国总统大选中,奥巴马一个几十人的数据分析与挖掘团队,通过进行大规模与深入的数据挖掘,来帮助其在各种社交平台获取有效选民、投放广告、募集资金等,成为奥巴马得以连任美国总统的重要功臣。
奥巴马团队与时俱进地“玩转”社交平台,事实上正是当下热议的“大数据分析”的一种形式。而当此次大选尘埃落定后,大数据或将开启政界的新时代。
什么是大数据
根据《著云台》分析师团队的解释,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,当这些数据被下载到关系型数据库用于分析时通常会花费很多的时间和金钱。而大数据分析常和云计算联系在一起,因为实时的大型数据集分析需要向数十、数百或甚至数千的电脑分配工作。
简单来说,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。同时,大数据并不是孤立存在的。所谓“大”,是因为它超出了传统的IT架构和分析软件的处理能力或者是处理效率,它是ICT (Information Communication Technology)产业发展到一定阶段的必然产物。
从2008年发生全球性经济危机之后,信息技术的重要性被世界各国广泛地认识。在技术上,物联网、虚拟化技术、云计算、移动互联网风生水起;在应用模式上,电子商务、社会化媒体等技术应用的革新,都极大地推动着ICT产业向前发展,并带来了大规模、多方来源、多样类型的大数据,为组织信息中心的主要建设者CIO(Chief Information Officer,即首席信息官,是一种新型的信息管理者)们提供了一条崭新的途径。
这对于信息高度发达的21世纪,既是最好的时代也是最坏的时代。这些新的信息技术也为组织的竞争对手提供了机会,谁的信息中心能率先让自己的组织从大数据中获益,谁的组织决策能够更少地犯错,谁就能在未来更加激烈的竞争中占据先机。
可以说,掌握大数据技术已经成为一种新的竞争优势和新的经济资产类型。因此,大数据对于商业,就如企业苦苦寻求的那一片蓝海,但它又不只是企业的“专利”;而对于政府,如何应用好大数据则是构建高效服务型政府的关键。在今年早些时候,当奥巴马总统宣布以2 亿美元投资大数据领域时,美国政府甚至将数据定义为“未来的新石油”。
奥巴马的数据处理团队
在2008年的美国总统竞选中,尽管奥巴马团队缺少自己的IT团队,大部分工作需要设备供应商和选战志愿者来完成,随后出现的胡迪尼计划(Project Houdini,这是一个发动投票的革命性系统)也失败了,但是其数据库却保留了下来,并在当年的竞选中扮演了重要的角色。
今年,奥巴马团队决定设计一个新的系统——独角鲸计划(The Narwhal)。
所谓的独角鲸是奥巴马团队在亚马逊的云服务架构上设计的一套服务接口,所有竞选应用都通过它和唯一的数据库通讯,这能够让奥巴马团队的所有成员在不同的应用之间分享许多数据,节省了许多时间。
2011年6月加入奥巴马竞选团队的里德,组建一个技术小团队,希望用自己开发的应用程序接口(API)把竞选的数据连接起来。因其成员都是来自谷歌、Face book、Twitter和Trip It等的互联网精英,拥有创业公司的工作经验,能够把一个app从无做到有。他们也把希望寄托在云技术上面。
里德团队用583天完成了这些任务。在独角鲸Python语言写成后,需要有一个处理中心,把所有设备和应用的数据通过标準HTT输送到这个中心,他们选用了亚马逊基于MySQL的关係数据库服务(RDS),其能够让数据库镜像不需要任何备份操作而成为简单存储服务(S3)实例。
随着独角鲸团队的扩大,应用开发的周期变得更快,地区选战团队有了更多的应用程序帮忙。人们见到最多的就是Dashboard和Call Tool。其中Dashboard网页应用能够帮助即将成为竞选志愿者的人自动安排整理他们的招募和推广工作;而Call Tool可以让身处任何地方的志愿者进行一次电话助选,显示出一位随机挑中的选民电话和说服该选民的对白词,在选战的最后几天,Call Tool发挥了极为重要的作用。
同时,虽然独角鲸的基础设施和其他选战应用程序主要在亚马逊的北佛吉尼亚数据中心中运行,但奥巴马竞选团队还是布置了至少两个备用数据中心。而事实证明,这样的做法的确帮了奥巴马的大忙。当桑迪颶风来临的时候,该团队准备的紧急方案备份了大约500个EC2云系统,在亚马逊的西岸数据中心随时准备上线,为奥巴马提供数据支援。
伴随着选举日子的临近,独角鲸显示了强大的信息处理能力,对应用程序的调整甚至让奥巴马团队有些“坐卧不安”,于是工程师们做了一些调整,去掉了导致问题的不必要的代码。在整个大选期间,这套系统自始至终只经历过不到30分钟的宕机,最终达到了它的目的:让奥巴马连任成功。
大数据会带来什么改变
在上个世纪,各国人口和经济的测量与推论主要采用的是传统的普查以及随机抽样调查的方式,但这却存在一些众所周知的实际弱点。因为,人类活动是连续和动态的,普查只能反映某个定量短暂时期的变化,而结果在被宣布时就已经过时了。
同时,很多国家都面对着严格的财政预算限制。现在的高费用、低回收的普查和调查办法反应率逐渐下降,已不能很好地解决问题,也不能满足相关的需求。尤其在数据大爆炸时代,应用政府统计的网民正在快速增加,他们需要更广泛、更动态、更及时、更容易存取和了解的数据,但现有方法必需的资源和时间都不可得或不能负担。
此外,根据南加州大学的一项研究,世界电子储藏数量在2002 年第一次超越了非电子储藏数量。在2007 年,地球上至少94% 的所有资讯都以电子形式储藏。于是,数据可以没有抽取样品的需要或考虑,可将其完整地电子化直接输入机器处理和计算。
而大数据是一个有关非常大量电子数据的新用词,它很可能不是根据传统统计系统的结构和概率原则而进行收集的。但在行政记录、社会媒体、条码和电波扫描仪、运输感应器、能源和环境监视器、在线交易、流影像和人造卫星图像方面,这些都能够为大数据的来源和爆发提供生长因素。
尽管政府统计在大数据汪洋中的分量很少,但仍然拥有支持全球化的经济体制及解决不断扩张的社会需求的独特重要。当我们活在可以在数秒钟内了解大千世界变化的时代,那些要等多月才可收集到的地理、企业与人口的静态结果将失去意义。
因此,大数据作为一个技术,正在影响着现代社会的诸多方面,而如果政府不能掌握这个技术,就会逐渐失去国民对其的信任,而奥巴马在全球备受关注的政治舞台上对大数据的成功运用就在为我们提供一个很好的例证。同时,作为一个快速成长的经济大国的中国,拥有非常广阔的大数据应用市场,中国政府更应该看到这些变化,重视统计数字,促进社会的良性发展。