大数据时代,生活、工作与思维的大变革

新闻趋势 admin 1年前 (2020-06-05) 368次浏览 0个评论

大数据开启了一次重大的时代转型,随之而来是生活、工作和思维的变革。

这个时代,最不缺乏的就是信息,我们既是信息(信息的量化即为数据)的消费者,更是直接的产生者,不管是智能手机,还是各种终端设备都在产生并上报我们的日常行为数据,几乎我们每一个行为都在被“数据”所监控。

仅仅是一种工具,一门技术,更是一种全新的商业模式,下一代经济的生态系统。因为数据代表的是一种趋势,通过这种对未来的洞察,我们有可能创造更具有未来色彩的产品和服务。

大数据已经撼动了世界的方方面面,从商业科技,到医疗、教育、经济、人文和政府,以及社会的各个领域,同时,对数据的掌握也已经转为为经济价值的直接来源。

数据本身只代表过去发生的一些瞬间,但大数据的核心却是预测。通过把恰到好处的数学算法应用到海量的数据上来,就可以预测未来的可能性。这种可能性,最直白的说法实际是未来发生的概率,比如明天下雨的义是明天下雨的概率非常高。

这种预测的能力是人类难以企及的,这也是从趋势上来看,人类在这些类似的领域中的能力会被计算机所取代的直接因素,当足够的数量应用在医疗领域,对人类在疾病诊断、推荐治疗等方面确实会带来翻天覆地的改变。

 

01

海量的数据,直接取代传统的样本思维

大数据和传统的样本统计数据,最大的差距在大数据让我们看到了样本无法揭示的细节信息,因为我们的数据采纳将不再依靠传统的随机抽样,而是将整个数据都直接当成了样本。在这个维度,样本=全部,这在过去是无法想象的。

样本之所以会发展为一门专门的“学问”,是因为在过去缺乏信息匮乏的有效应对机制,统计学的目的之一就是用尽可能少的数据来证实尽可能多的发现。传统的思维模式下,是因为匮乏,所以减少。人口普查,全国范围内的经济调查等,都只能依靠抽样的方式来实现全量数据的获取。

如果有一种技术能够使得所有范围的人都直接参与到数据的统计中来,不但减轻了很多的工作负载,更为重要的是,它真的能够满足覆盖全部的范围。

事实上,统计学家们已经证明采样分析的精确性随着采样的随机性而大幅提高,但却与样本数量的增加关系不大,也就是传统抽样的办法,当样本量达到某个临界值以后,我们从新个体身上所获得信息就越来越少,如同经济学中的边际效用一样。

我们在平常的市场调研中也应该有这样深刻的体验,随机性大于样本量,只要样本量达成一定的量级,但随机抽样的数据分析存在先天性的缺陷,这种缺陷就在于绝对的随机性,一旦采样过程中存在任何主观上的偏见,分析结果就相差甚远。

采样立场的差异,会造成采样结果的错误率大大增加。就如同你在1000人的女性中调查对政策的看法,你无法使得一线城市的精英女性,与农村妇女的观点和思想会相同。

大数据的优越性在于,它不再依赖随机分析法,而直接采用所有的数据,大数据的“大”不是绝对意义的大,正是这种样本=全部的思维模式,它不并不单纯的数据量。

当我们能够逐渐用全量数据来取代抽样分析,我们也就不用担心在做分析研究时所存在的偏见了,这种偏见不但包括研究者设计和实验问卷的偏差,也包括调研对象本身的心理和行为。

 

02

数据的复杂性,会让我们放弃数据的精确性

人类历史曾经把测量世界来征服世界视为最大的成就。伟大的物理学家开尔文男爵曾说过:“测量就是认知。”并由此发展了可以准确收集、记录和管理数据的方法。

然而,在不断涌现的新情况里,不精确反倒成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据将比以前更多,而这些数据将能用来做更多好的事情,甚至创造出更好的结果。

至少在现阶段的事实表明大数据的简单算法比小数据的复杂算法更有效。比如谷歌的翻译系统,相比于过去的复杂算法而言,大数据加持下的简单算法表现更为优异。

在技术等客观条件制约的过去,由于数量样本小,它最重要的要求就是减少错误,保证质量,因为收集的数据太少,就必须确保记录下来的数据尽量精确,不管确定星空的天体位置,还是显微镜下的物体大小,因为收集的数据有限则意味着细微的误差都会被放大,直接影响整个实验和分析的结果准确性和有效性。

随着数据规模的不断扩大,对数据的精确性要求会减弱,因为我们不再需要对每一个现象都刨根问底,只要掌握大体的发展方向即可,适当忽略微观层面的精确度会让在宏观层面拥有更深刻的洞察。

大数据是通过概率说话的,而不再是传统的“确凿无疑”,因为它包含了与当下这些现象相关的大量甚至全部数据,我们不再担心某个数据点对整套分析的污染,反倒是更期待足够多的数据来丰富未来趋势的概率。

未来的商业社会,略有瑕疵的答案并不不能影响商家们的胃口,因为他们更看到的是足够高的频率。快速获得的关于未来的轮廓和发展脉络,远比传统的精确性要重要许多,执着于数据的精确是传统的做法,在大数据的时代,最经济的方式是接受那些不完美数据并从中获取,而不是以高昂的代价来消除不确定性。

 

03

到底是相关的关系,还是因果的关系?

寻找因果关系,是人类社会长久以来的习惯,在大数据时代,这一点可以发生了改变。

也许我们不太能准确的获知某件事情为何发生,什么时候发生,但是数据能够提示我们这件事正在发生。就像我们可能确实不知道机票的定价规则,但我们能够通过一些方式拿到更为优惠的机票。数据的相关性特性,使得我们的思维不再局限在传统的由数据证明事实,而是通过数据来影射出我们从前认为和信息根本搭不上边的事情,并直接给出我们所期待的结果。

在大数据背景下,通过应用相关关系,我们可以比以前更容易、更便捷、更清楚地分析事物。相关关系的核心是量化两个数据之间的数理关系。例如:在一个特定地区,越多的人通过搜索流感方面的词条,我们就可以知道该地区就有更多的人患了流感。

通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预知未来。如果A和B经常一起发生,只需要注意到B发生了,可以预测到A也即将发生。

建立在相关关系分析法基础上的预测是大数据的核心,而且它的应用会越来越高。2011年,FICO提出“遵从医嘱评分”系统。它会分析一系列变量来确认这个人是否会按时吃药,例如,一个人在某地居住多久,这个人结婚没有,他多久换一个工作,他是否有私家车等这些诡异的相关变量。但这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。

 

通过找出一个关联物并监控它,我们就能预测未来。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题。比如发动机在坏掉之前会出现嗡嗡声、引擎过热等故障,而这时候只需要通过传感器来实时监控其各项参数,再将之与平常情况作对比,便可在故障之前更换零件或者修复问题,从而避免了更大的经济损失。

但预测性分析并不能解释故障可能发生的原因,它只会告诉你存着什么问题,而不会告诉你为什么引擎会过热。但是如果想要找出原因这必须要另想办法,也就是需要更大的成本。

这时候知道“为什么”其实并不比知道“是什么”来得重要,事实上这会让我们在无意识中放弃对“因果关系”的探索,拿来主义完全占据上风以后,我们就只顾着机器给我们的答案,而不再思考。

但相关性是就像一头怪兽,事实上我们意识中很多的相关性都是一种假象。

比如父亲经常告诉孩子,天冷时候不戴帽子和手套就会感冒,然而事实上感冒与我们的穿戴没有太大关系;我们去一家餐馆就餐后拉肚子,我们就会认为是餐馆的食物有问题。

我们的快速思维模式直接将其归于任何我们能够第一时间想到的因果关系,而这通常都是错误的。好在,我们逐渐意识到到“非线性关系”的存在,而不在沉迷快速思考模式下的线性关系。

这种慢思考的觉醒,非线性关系会对决策带来重大影响,比如收入和幸福指数的关系,当意识到收入达到某个点以后,幸福感不会再随着收入水平提供而提升,政策的重心应该转为更多的关注提升低收入群体的收入水平,从而提升整个社会的幸福指数。

有些时候,我们没有必要一定要找出相关关系背后的原因,因为“确凿的数据给出了明确的答案”,能够让我们更节省精力和成本,但如果想要继续像更深层次的探索这个世界,就必须追寻“为什么”的真正答案。

大数据,改变了人类探索世界的方法。


极客公园 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:大数据时代,生活、工作与思维的大变革
喜欢 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址