搜索数据预测未来


  在过去的几年里,计算机科学家们一直在吹捧使用互联网搜索数据发现某种趋势——比如房价和失业人数变化,下一次票房纪录,或下一次流感肆虐的地点。但前不久发布的一项研究指出,这些搜索数据对于不同领域的预测存在细微差别及其产生的原因。

  雅虎的研究人员分析了雅虎搜索引擎中的数据,并发现这些搜索并不是发现某种趋势的最好方法。他们研究了有关某部特定电影、音乐以及电子游戏在发布六周前的搜索数据。搜索数目与电影上映后首周的票房、电子游戏的首月销售额以及《公告牌》杂志(Billboard)榜单的排行极其相关。

  数据搜索的未来

  研究人员将这些结果与传统方法得到的结果做比较。对于电影,他们关注好莱坞交易所,这是为即将上映的影片进行票房收入交易的市场,它也显示某部即将上映的影片的影院数目。对于游戏,他们观察来自评论家的评价。对于音乐,他们则研究乐评及某位艺人最近或之前在《公告牌》杂志榜单的排名。

  基于搜索的趋势预测也就比这些方法好一点,有时甚至更糟。现在这项研究发表在了《美国科学院院报》上。

  对于新款电子游戏,基于搜索的预测是最准确的。参与此项研究的雅虎研究人员之一杰克·霍夫曼(Jake Hofman)说,这可能是由于缺乏数据。“衡量新推出的电子游戏品质的唯一因素就是来自评论界的评论了。”因为传统数据的缺乏,搜索数据才变得可行。对于电影和音乐,基于搜索的预测并不比传统方法有优势。

  最近几年,互联网搜索被开发成了用于趋势预测的工具。2008年谷歌的研究人员发布了Google Flu Trends工具,它根据人们对“流感”,“流感疫苗”以及相关词语的搜索,可以推测世界各不同的地方有多少人患上了流感。他们发现该工具对于美国一些地方可以计算出近似的患病数,比疾病控制与管理中心(CDC)快10天。

  然而,CDC往往是推迟两周才公布流感患病数。他们正在推出能将其缩短一周的新技术。如果这项新技术有效,基于互联网搜索的流感预测可能就比不上CDC了。

  2008年,衣阿华大学医学系助理教授菲利普·波尔格林(Philip Polgreen)发表的一篇论文指出了雅虎搜索数据与官方流感报告之间的相关性。波尔格林说用户的意图通常难以察觉。比如说,某人查询了一种疾病或一种症状,这并不意味他就得病了——有可能是他正在写相关的研究论文。

  今年春季,华盛顿大学临床研究员贾斯汀·奥蒂兹(Justin Ortiz)今年发表了一项研究,他指出Google Flu Trends在新闻热度高的时候会过高估计流感患病人数,比如2009年H1N1肆虐的时候。

  如果拥有更多的数据,一些研究者相信会实现更好的预测。“在未来5-10年内,我相信更多的公司会在他们的预测中使用这种微数据——数千亿次观察的细粒度数据,”MIT数字商业中心主任埃里克·布林约尔森(Erik Brynjolfsson)如是说。

  布林约尔森表示,互联网查询在人们购物前的市场调查中能提供最精确的预测。他的研究表明,房屋销售的提升可以从互联网搜索中预测。房屋搜索每一个百分点的增加都意味着下一个季度会有121400项额外的房屋销售。

  雅虎的研究人员说,当略微提高了预测精确性便会产生重大影响时,搜索数据可能会更加有用,比如说在金融领域中。

  对于突发热点变化,互联网搜索可能非常有用。比如说,当前的统计模型很难得知《公告牌》杂志榜单上某一歌曲的受欢迎程度将突然滑坡。但互联网搜索会很快发现这一转变。这些转折点对于医疗、经济以及消费调查也很重要。