中工娱乐

工人日报 2014年08月29日 星期一

关于大数据,除去技术层面的研究和应用,实际上在与历史、 社会、人文等学科领域交叉的过程中,也能引发出很多有趣有益的话题——

大数据可能沦为大忽悠?

储棕荷
《工人日报》(2014年08月29日 05版)

编者按

近日,腾讯网举办了一场主题为“大数据”的“夏季思享会”。此次分享会请到了来自各个领域的学者和专家,堪称是一场跨学科的思想碰撞。由于是跨学科,因此让人耳目一新的观点不少,其中有些还是目前国内关注大数据的人们不太了解的观点,既思辨又妙趣,可谓是对大数据的一次反思,打开了它的另一扇窗,让人看到了大数据的别样“风景”。

在一般人看来枯燥乏味的大数据,究竟深藏着怎样有趣的内涵和观点?我们不妨随着这些大方之家的思路行进,从多维的角度来了解。


众所周知,大数据就是海量数据。

目前,海量数据的应用正在改变我们现有的生产方式,不仅成为一个重要的生产要素,还在一定程度上提高了生产效率。这时,海量数据应用带来的信息风暴不仅影响了我们的工作、生活,还可以逐渐影响我们的思维方式。

有人说,大数据本身就是一场革命,这场革命就是把“量化”这个概念推进到我们生活中的方方面面、角角落落,几乎无人可以幸免。

大数据的挖掘过程需要注入思想,这种思想体现为“人性”

在北大新闻与传播学院的刘德寰教授看来,即使是像 BAT 这样的互联网巨头,它所拥有的数据也只是一座“数据孤岛”。因此,很多大数据其实是断裂且封闭的。在这一座座孤岛被打破之前,大数据都无法称“全”。这种大而不全的数据,可能导致我们无法真正获得想要的规律,也可能沦为“大忽悠”。

虽然关于大数据的介绍和分析都告诉我们,大数据注重的是“相关关系”,而非“因果关系”,但是刘德寰指出,如果只注重相关关系,数据量的增加将不可避免地带来伪相关的现象。比如,当数据量达到几十万之巨之后,只会导向“万物相联系”这一结论。

这时,所选取的变量都会呈现为统计显著,而这样的数据分析无疑就是失败的。因此,即使大数据现在备受推崇,但传统的抽样调查和实验等社会学研究方法也不该被抛弃,而应结合使用。

《大数据时代》的译者周涛也表明自己的观点:从技术层面上来看,我们的确需要找到因果关系。一方面,有的关联如果没有因果在背后是很难被发现的;另一方面,因果能够帮助我们更好地解释和分析相关。

刘德寰强调,大数据的挖掘过程需要注入思想,这种思想体现为“人性”。因为,统计数据不能代替对人性的理解,真正进行跟人相关的大数据挖掘的时候一定要关注人性,这个时候的算法和建模才有针对性,才有意义。

怎样在数据中注入人性?刘德寰指出,观察、实验、调查等传统的研究方法都是很好的选择。比如,乔布斯就经常躲在苹果体验店外没人看得见的地方,观察体验店里的人的行为——这是最早期的研究方法,在拥有大数据的今天还在使用,是有一定原因的。说白了,诸如“体会、体验、直觉、灵机一动、内省”这些看似与大数据无关的东西,有可能恰恰就是大数据的核心。

大数据也可以小应用,即把大数据应用到各个独立领域中去。怎样做好大数据的小应用?刘德寰认为要从两个方面着手:一是大数据与小数据结合,这个小数据就是基于抽样调查的数据;二是来自各个独立领域的专业知识非常重要,比如以心理学、法学、社会学、营销学等混合知识作为背景,再去跟数据结合,就能够探索出一个更科学的大数据分析和挖掘的方式。

基因研究是一项很少被人了解的产业研究,但却是真正的大数据应用

怎样有效地预测疾病,降低传染病的发病率,这些都需要依靠于基因研究。人身体中的细胞数量有 10 的 14 次方个,而一个细胞的癌变就可能导致生命的终结。这一个癌细胞分解为 RNA 后就是 10 的 9 次方,变成蛋白质则是 10 的 19 次方。

华大基因董事长汪建告诉大家,这么大的数据量足以构成大数据,而基因研究面对的就是如此量级的数据研究和应用。

以对肿瘤细胞的定性、定量研究为例,汪建分析说,首先,要知道肿瘤细胞现在的基因是怎样的,而当出现一两个基因变化的时候,细胞又会变成什么样;其次,当众多肿瘤细胞的基因变化构成了相当量级的数据之后,能通过数据来展现细胞癌变的动态变化过程,从而进一步预测疾病。

汪建认为,这样的研究如果用在先天性疾病的防治上将会更有意义,比如有出生缺陷的婴儿就会越来越少。华大基因目前正在推进的“百万人基因计划”,就是一个名符其实的大数据应用。

因此,汪建从自己擅长的基因研究出发,表达了自己对大数据的理解:从大目标出发,践行大数据,实现大科学,从而将研究成功运用到各个领域中去,形成大产业。

大数据让每个人变得更加透明,因此普通百姓是无秘密而言的

大数据更高级的阶段应该是数据的集成与共享,并把集成和共享本身作为一种商业模式——这是周涛的另一个观点。为此,他举了一个通过大数据帮助全球能源更好地进行配置的例子。

周涛所在的电子科大与电力集团达成合作,通过大量遥感装置和本地勘探数据了解到各个国家的能源供需情况;其次,通过与气象局合作获得气象数据,包括日照、风速风向、降雨等,从而对太阳能、风能、水能等新能源做到短期预测,并实现能源负载平衡。周涛认为,这些数据若再与电力集团的数据进行集成和分享,就能将各项能源更有效地调配使用。

社科院农发所社会问题研究中心主任于建嵘曾经说过,大数据让每个人变得更加透明,我们生活中的各种行为将通过数据被采集,并且分析出来,因此普通百姓是无秘密而言的。然而,这些数据却不是普通百姓可以看到或使用的,真正拥有这些数据的是部分企业、机构和政府,普通用户只是大数据的提供者,这就是“阶级”的产生。

社会学教授郭于华所关心的,是社会中的普通人怎样面对和使用新技术。譬如,新技术是不是会缩小信息鸿沟和社会鸿沟?

郭于华曾经做过一个有关新生代农民工怎样使用信息技术的研究。她对研究结论的预判是:新技术将有助于新生代农民工的社会融入和城市融入。事实上,新技术确实给他们的生活带来了改变:其一,农民工是一个公共生活缺失的人群,信息技术给他们相互之间的交流带来了很多便利;其二,新媒体给了他们表达的渠道,这是以往所不曾有的;其三,他们可以通过新媒体即时调用各种所需要的信息,更加了解所生活的这个世界。

但即便如此,郭于华认为,我们也不能过分夸大信息技术对弱势群体的作用,因为其确实呈现出比较强的马太效应:强势者可以更好地、更有利地利用这些新技术,同时他们也会对其他人加以控制。所以,新技术有没有可能穿透社会结构的屏障才是关键的问题。

像郭于华教授这样的调研,其实也正是创业者们所需要的。比如“豌豆荚”就曾经派人去广东东莞的企业做调研,了解打工族们对智能终端和移动应用的真正需求,体现了大数据背景下的一种人文关怀。

关于中工网 | 版权声明 | 违法和不良信息举报电话:010-84151598 | 网络敲诈和有偿删帖举报电话:010-84151598
Copyright © 2008-2025 by www.workercn.cn. all rights reserved
扫码关注

中工网微信


中工网微博


中工网抖音


工人日报
客户端
×