品牌头条新闻LOGO

大数据变革,用最少的数据来证实最重要的发现

/
  “大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近,我们对此似乎还是难以把握。

  IBM的资深“大数据”专家杰夫.乔纳斯提出要让数据“说话”。从某种层面上来说,这听起来很平常。人们使用数据已经有相当长一段时间了,无论是日常进行的大量非正式观察,还是过去几个世纪里在专业层面上用高级算法进行的量化研究,都与数据有关。

  在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。

  实际上,大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。

  首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。

  其次,我们乐于接收数据的纷繁复杂,而不再追求精确性。

  最后,我们的思想发生了改变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

  今天我们就来介绍一下第一个转变:利用所有的数据,而不再仅仅只是依靠一小部分数据。

  很长一段时间以来,准确分析大量数据对我们而言都是一种挑战。过去,因为记录、存储和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。为了让分析变得简单,我们会把数据量减缩到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是我们可以处理的数据量已经大大地增加,而且未来会越来越多。

  在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。我们还是在信息匮乏的假设下做很多事情,建立很多机构组织。我们假定自己只能收集到少量信息,结果就真的如此了。

  这是一个自我实现的过程。我们甚至发展了一些使用尽可能少的信息的技术。

  别忘了,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。

  事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。

  在小数据时代的随机采样,用最少的数据获得最多的信息。直到最近,私人企业和个人才拥有了大规模收集和分类数据的能力。在过去,这是只有教会或者政府才能做到的。当然,在很多国家,教会和政府是等同的。

  有记载的、最早的计数发生在公元前8000年,当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是政府的事情。数千年来,政府都试图通过收集信息来管理国民。

  以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都凯撒主导实施的人口普查,提出了“每个人都必须纳税”,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒。

  1086年的《末日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。

  皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用《圣经》中的《末日审判书》命名,因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样。

  然而,人口普查是一项耗资且费时的事情。国王威廉一世在他发起的《末日审判书》完成之前就去世了。

  但是,除非放弃收集信息,否则在当时没有其他方法。尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,意思就是推测、估算。

  三百多年前,一个名叫约翰.格朗特的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。

  虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞,因此无论是进行人口普查还是其他大数据类的任务,人们还是一直使用一一清点这种古老原始的方法。

  考虑到人口普查的复杂性以及耗时耗费的特点,政府极少进行普查。古罗马在拥有数十万人口的时候每5年普查一次。美国宪法规定每10年进行一次人口普查,而随着国家人口越来越多,只能以百万计数,即使这样不频繁的人口普查依然很困难,因为数据变化的速度远超过人口普查局统计分析的能力。


免责声明:本文仅代表作者个人观点,与品牌头条无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

相关推荐

留言与评论(共有 0 条评论)
   
验证码: