论数据能力是互联网时代做研究工作的关键


  论数据能力是互联网时代做研究工作的关键

  

  温习龚江辉老师讲的研究统计学和杨澄宇老师讲的研究设计与方法,感觉有些抓狂,很多要点不易把握,对自己多年来形成的写作和研究习惯是个挑战。最致命处是对于数据的忽略。结合老师所讲,回顾自去年以来互联网金融、大数据等概念和具体实践对银行业的冲击,切感在当今这样一个互联网时代,数据能力太重要了,尤其对于做研究工作,是个关键。本文就此谈一些粗浅的认识和体会。

  一 互联网时代就是大数据时代

  毫无疑问,我们已经处在一个互联网时代。互联网就像阳光、空气、水,越来越成为生活和工作的必需品。有一个说法,90后是互联网时代的土著,是原住居民,其他的人都是移民。互联网正在成为一种生活方式。有人把智能手机比作鸦片,还有人视之为最厉害的第三者。对于人际能力的担忧,也成为互联网时代一个新课题。不过大家谈论最多的还是大数据。从一定意义上讲,互联网时代就是大数据时代,是一个互联网把每个人的点点滴滴时时刻刻都记录下来,人类一切行为都有痕迹可查的时代。互联网为无限度揭示人类的真实提供了极大可能性。

  龚江辉老师讲,现在都在讲大数据,90%以上的人其实并不是说的真正意义上的大数据。大数据和小数据的根本差别不在于量,而在于统计方法不同。大致意思是说,大数据是基于个体行为的研究,传统的小数据是基于群体、整体的研究。举例说,百度根据东莞扫黄效应搞了个百度迁移指数,号称大数据,但本质上还是传统数据,只是量的把握而已。典型的大数据案例是通过研究男人逛超市行为,得出尿布搭售啤酒的交叉销售方案。听完之后不得要领。其差异莫非在一个跨字?难道说相互之间越不搭界,越匪夷所思莫名其妙,就越是大数据?又想到,这是个失控的时代,数据大到永远不可以掌控,再搞大数据也只是其中的一小部分而已,由此得到的结论只是经验性结论,接近科学但还远远不是科学。或许人类过去的历史真的过于自大了,照易经观点,人类已知的远远小于未知的。或许可以说,小数据是伪科学,因为假设所有数据均为可控,抽样只是以局部推断整体而已。而大数据则是无限接近于科学的模糊科学,承认并非所有数据均可控,可控的只是其中一部分,人们据此得到的只是近似真理,追寻真理是一个永恒的永远没有止境的过程。

  查百度,有一位大神归纳了大数据和小数据的10个差别:一是目标。小数据为了回答特定问题而存在,数据大致内容是预知的。大数据收集时只是有一个模糊的整体的目标,数据内容没有人可以预知,一切可能都是没有被指定的。二是位置。小数据一般存放在一个机构中,一台计算机、一个文件或一个数据库。大数据则遍及整个电子空间,可能存放在地球的任何一个角落。三是数据结构和内容。小数据都是高度结构化的数据,数据域限制在单一的学科或分支学科。大数据包含各种非结构化数据,比如任意文本的文档、图像、视频、音频,甚至是物理实体,这些资源的主题可以跨越多个学科,关联到其他各种看似不相关的数据资源。四是数据准备。小数据大多是谁使用谁准备,属自产自用型。大数据有许多不同来源,可能经过了许多人,准备数据的人基本上不是最终使用数据的人,属全球化高度发达的纯市场经济型。五是生命周期。小数据与项目相关,数据保留时间有限,通常为7年,然后就被丢弃掉了。大数据则会永久性存储。六是衡量。小数据的质量和结果可通过标准的方法来解析和读。大数据质量的验证则很困难。七是可重用性。小数据项目中,各种技术或者思想通常是可以重用的。大数据项目的重用性则几乎不可行。即使上一项目发现了错误,也没有办法标示出来,下一项目仍然会出现这样的错误。八是成本。小数据项目的成本和代价是有限的,但是大数据项目的成本和代价却相当高昂。九是内省。小数据寻找比较容易。大数据让人感觉高深莫测,需要通过一种“内省”技术来实现完全访问。十是分析。小数据在大多数情况下可一次性全部参与到分析中。但是在大数据中,除少数特例外,一般要通过分布式的方式进行分析。这些数据经过提取、评估、聚合、归一化、转换、可视化、诠释等不同的方法进行分析。以上10个差别的概括显然来自IT人士。

  另搜,还有一个网帖将大数据和小数据的差别概括为四点:一是思维逻辑不同。小数据关注因果关系,探寻“为什么”,大数据只关注相关关系,探寻“是什么”。二是用途不同。小数据说明过去,大数据核心是预测,是驱动现在。三是结构不同。大数据更多地体现在海量非结构化数据本身与处理方法的整合。二者差别体现在几方面,包括数据的量,数据的种类、格式,数据的处理速度,数据复杂度。四是分析基础不同。大数据的基础是大规模数据积累。依托互联网展开的新生活与工作方式,为此提供了可能。数据驱动企业是一个数据积累从量变到质量的过程,不是工具问题,是数据积累问题。如果误以为做个好的信息化工具,就可以实现数据驱动企业,那一定会是天大的灾难。

  再查百度百科,《大数据时代》一书给出的定义是:大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。大数据四个特点:大量,高速,多样,真实。大数据与云计算就像一枚硬币的正反两面,大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据技术的战略意义,不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。可见,对数据的加工能力才是王道。

  综上,我们大致可以理解:互联网已经是我们身活和工作环境的真实,不是选择的问题,而是必须适应;互联网使我们的工作生活处处留下痕迹,大数据积累时时刻刻在进行着;互联网使大数据的积累和有效处理成为可能,这将极大地颠覆人类社会现有的诸多状态。适应互联网,学会大数据,可以说是成为一名互联网时代合格居民必做的功课。

  二 数据能力是做研究工作的关键和新挑战

  杨澄宇老师讲到,做研究要三个目的,一是探索,二是描述,三是解释。如何从海量数据中找到研究工作所需要的,然后进行有效的分析,最终得到正确的结论,这对任何研究者都是一个挑战。在互联网时代,可以认为数据能力已经成为做研究工作的关键。这个数据能力,我认为大致可划分为三个细目:一是找到真数据的能力;二是找到有用数据的能力;三是有效分析数据的能力。

  (一)如何找到真数据

       找到真数据,在当今中国不是件容易的事。前一段时间流行的“克强指数”,就说明了这一点。统计造假,是公开的秘密,这和计划指标互为表里,构成转型时期中国经济领域的一个独特景观。要找真数据,就需要抓点,蹲点调查,解剖麻雀。非亲力亲为不可,必须掌握第一手资料。工作中更是如此,不掌握情况,就是盲人骑瞎马,必须直接到最终端,到第一线,深入群众,深入基层,深入人心,这样才可以不打无准备之仗。无论数据多么齐全丰盛,向下走、接地气是必须的。

  (二)如何找到有用数据

       找到有用数据,是互联网时代的新难题。海量数据,一方面应有尽有,无所不有,极尽丰盛,另一方面垃圾信息多,泥沙俱下,不易搜寻和辨别。面对这种情形,专业意识很重要,就是情报学、图书馆学本身是个专业,类似的学问可能还有,就是要依托专业的人、专业的机构去做,通过专业的熏陶和训练,把自己的搜商提起来。其次要有目的性,要有个章法和节奏,不能被数据牵着走,要有重点,要讲必要的方法,不能把自己在葬在故纸堆里。过去讲皓首穷经,是悲剧,现在这个时代被数据所误的概率更是大大提高了。再就是一定要克服完美主义思维。大数据本身就是不完美的,任何人不可能穷尽真理。陷进完美主义泥潭,很可能抓了些细枝末节,而把主要的丢掉了。

  (三)如何有效分析数据

    有效分析数据,技术很重要,比如云计算技术,但是思想方法更重要,要有一些必要的统计学、逻辑学训练,要有哲学思维,防止出现重大偏差和错误。郎咸平教授对待数据似乎不够严谨,招致不少批评。用正确数据导致错误结论的例子也不胜枚举。关于中国崩溃论的说法即是一例。

  2000年,美国匹兹堡大学经济学教授托马斯·罗斯基发表了《中国GDP(国内生产总值)统计发生了什么?》一文,提出了对中国统计数字的疑问,他认为,中国的经济增长率没有“中国威胁论”者想象的那么高。这是一个基本事实。

       但随后情况慢慢发生了变化,随着中国威胁论破产,一个新的论调在酝酿中。2002年1月,美国《中国经济》季刊的主编斯塔德维尔在其出版的《中国梦》一书中把中国经济比喻为“一座建立在沙滩上的大厦”。他预言中国将出现大规模的政治和经济危机,并警告投资者“不要轻易把亿万美元的投资扔进中国这个无底洞”。4月1日,美国时代周刊也刊登了一篇题为《中国为什么造假账?》的文章,称中国已“被虚浮的数字淹没”,“在某种程度上,中国作为经济大国的名声是建立在纯属虚假的基础上的”。最极端的是美籍华裔律师章家敦2001年7月出版的《中国即将崩溃》一书。章家敦认为,中国四大国有银行的坏账“已经高到不能维持的地步”。在中国加入世界贸易组织的冲击下,中国的对外贸易将出现逆差,而且由于全球经济不景气,对中国的投资也会减少。其结论是,“与其说21世纪是中国的世纪,还不如说中国正在崩溃”。 “中国即将崩溃”的观点提出后,在美国引起了很大的反响。美国国会甚至为此专门举行了听证会。

  现在的结论已经很明确,中国并没有崩溃,上述研究成为一个错误分析的标本。除了学术上以偏概全外,意识形态藩篱、霸权主义心态也是导致其错误分析的根源所在。

      三 数据能力对银行业几点启示

         在互联网时代数据被视为财富。而银行号称信用中介和信息中介,拥有大量基于信用和风险管理带来的数据。银行和军事是高科技运用最快、最充分的两个领域,但众所周知的是银行的信息孤岛和数据浪费极其严重。做银行工作和研究银行的工作,都应当重视数据能力这个维度。

        (一)银行经营决策体系应当更多地依赖于数据能力。现在的许多决策还是拍脑门,跟着感觉走。在高端决策中,直觉很重要,对此点应当充分重要,但同样不可忽视的是数据,拿数据说话,摆事实,讲道理,同样应成为常态。数据能力越来越成为决胜市场的关键。

         (二)银行应注重各种数据积累的管理。包括内部维度和客户维度。内部维度核心是知识管理,要把每时每刻产生的知识积累起来,各个条线各个层级创造性和智慧都要珍惜,点点滴滴汇入一个仓库。这就是学习型组织,可以不断地自成长,任何人都可以从组织内部适当的平台上持续挖掘出有效学习资源,不仅仅是一个档案管理的问题。客户维度核心是客户关系管理,除业务数据外,还有各种行为数据,以及各种非结构化数据。通过对客户数据的深度挖掘,可以不断寻找到新的市场机会。

         (三)银行应注重数据分析团队的作用。广义的数据团队包括战略研究团队。要注重内部数据分析,还要注重政策、行业、竞争者等外部数据的分析,横向的分析和纵向的分析都很重要。除了内部的数据团队,还要适度借力于外部专业人士或专业机构。多谋还须善断,重视数据,同时还不能唯数据马首是瞻,还要能够跳出数据独立作决策。

        (四)当前尤其要注意不能被大数据概念搞晕了。当务之急是要把自身数据用起来。同时要有一个数据规划,加强数据积累的管理。许多决策需要自身持续的数据积累来支持,从别人那里拿来的模型不一定适合自己。更加不能迷信建一套信息系统就是搞了大数据,数字背后更加宝贵的还是人的思维。用好自己的数据,保护好自己的数据,积极整合公共数据资源,这应当是大道。如果总是打窃取别人的数据、搞数据垄断和数据封锁这样的歪主意,注定成不了什么大气候。

         (2014年10月3日)