网聚宝学院 >公司新闻 > "大数据"这词不火了 是不是因为没当年说的那么好

"大数据"这词不火了 是不是因为没当年说的那么好

2018.04.17 mty 网聚宝CRM 数据洞察、 大数据 浏览数:1274




大数据时代到来,社会将开始发生一场革命,在这场革命中,海量数据的收集与分析将会改变人们生活的几乎每一个方面。

 

数据分析不再局限于电子数据表和回归分析:超级计算的到来,伴随着可持续记录数据并将数据传送到云端的联网传感器的不断普及。

 

不仅如此,高端的数据分析软件还有助于鉴定完全意想不到的相关性,比如贷款方用尽额度和他债务违约的可能性之间的关系。这势必将会催生会改变我们思考几乎一切事物的新颖见解。

 

大数据帮助驱动我们的动态消息、Netflix视频推荐、自动化股票交易、自动校正功能、健康跟踪设备等不计其数的工具背后的算法。但我们现在不大使用大数据一词了——我们只是将它称作数据。

 

我们开始将数据集能够包含无数的观察结果,先进软件能够检测当中的趋势当做理所当然的事情。



大数据引发的严重错误


虽然该词仍有被使用,但它更多地带有一种不好的意味,比如凯茜·奥尼尔2016年的著作《数学杀伤性武器》或者弗兰克·帕斯夸里2015年的《黑箱社会》。匆忙执行和应用大数据,即进行所谓的“数据驱动型决策”,带来了严重的错误。


有的错误相当惹人注目:塔吉特曾向一位没跟任何人说过自己怀孕的少女的家庭派送婴儿用品优惠券;Pinterest曾恭喜一位单身女性即将结婚;谷歌照片也曾引发轩然大波,该公司被大肆吹捧的AI将黑人误以为是大猩猩,原因是它的训练数据不够多元化。


其它的错误更为微妙,或许也更加阴险。当中包括奥尼尔在她的重要著作中记录的那些不透明的数据驱动式制度性模型:被法庭用来判决罪犯的、带有种族偏见的累犯模型,或者那些基于可疑的测验分数数据解雇备受爱戴的教师的模型。


大数据出错的新案例可谓层出不穷——比如Facebook算法明显帮助俄罗斯通过针对性的假新闻影响美国总统大选的结果。


盲目迷恋数据与误用


“大数据”的问题并不在于数据本身很糟糕,也不在于大数据本身很糟糕:谨慎应用的话,大型数据集还是能够揭示其它途径发现不了的重要趋势。正如茱莉娅·罗斯·韦斯特在最近给Slate撰写的文章里所说的,盲目迷恋数据,不加批判地使用,往往导致灾难的发生。


从本质来看,大数据不容易解读。当你收集数十亿个数据点的时候—一个网站上的点击或者光标位置数据;大型公共空间十字转门的转动次数;对世界各地每个小时的风速观察;推文——任何给定的数据点的来源会变得模糊。这反过来意味着,看似高级别的趋势可能只是数据问题或者方法造成的产物。


但也许更重大的问题是,你所拥有的数据通常只是你真正想要知道的东西的一个指标。大数据不能解决那个问题——它反而放大了那个问题。

 

加入更多指标


除了停用数据和回归到奇闻轶事和直觉判断以外,至少有两种可行的方法来处理数据集和你想要估量或者预计的现实世界结果之间不完全相关带来的问题。

其中一种方法是加入更多的指标数据。


Facebook采用这种做法已有很长一段时间。在了解到用户点赞不能完全反映他们在动态消息当中实际想要看到的东西以后,该公司给它的模型加入了更多的指标。它开始测量其它的东西,比如用户看一篇帖子的时长,他们浏览其点击的文章的时间,他们是在看内容之前还是之后点赞。Facebook的工程师尽可能地去权衡和优化那些指标,但他们发现用户大体上还是对动态消息里呈现的内容不满意。


因此,Facebook进一步增加测量指标:它开始展开大范围的用户调查,增加新的反应表情让用户可以传达更加细微的感受,并开始利用AI来按页面和按出版者检测帖子的标题党语言。该社交网络知道这些指标没有一个是完美的。但是,通过增加更多的指标,它理论上能够更加接近于形成可给用户展示他们最想要看到的帖子的算法。


这种做法的一个弊端在于,它难度大,成本高昂。另一个弊端在于,你的模型加入的变量越多,它的方法就会变得越错综复杂,越不透明,越难以理解。这是帕斯夸里在《黑箱社会》里阐述的问题的一部分。


算法再先进,所利用的数据集再好,它也有可能会出错——而它出错的时候,诊断问题几无可能。“过度拟合”和盲目相信也会带来危险:你的模型越先进,它看上去与你过往所有的观察越吻合,你对它越有信心,它最终让你一败涂地的危险就越大。


小数据


对于源自大数据集偏见的问题,另一个潜在的应对方法是部分人所说的“小数据”。小数据是指,数据集足够简单到可以直接由人来分析和解读,不需要求助于超级计算机或者Hadoop作业。跟“慢餐”一样,该词也是因为其相反面的流行而产生。


丹麦作家、营销顾问马丁·林德斯特罗姆在他2016年的著作《小数据:揭示大趋势的微小线索》中谈到了那种做法。例如,丹麦知名玩具厂商乐高依据大量声称千禧一代需要即时满足,更容易被比较轻松的项目吸引的研究,转向提供更大的积木,还在1990年代末和2000年代初打造主题公园和视频游戏。这种转型没有奏效。


那种由数据驱动的范式最后被它的营销者2004年进行的一项范围小得多的人类学调查颠覆。它的营销者逐个询问小孩他们最珍爱什么物品,发现他们最喜欢也最忠于可让显示出其苦苦练就的能力的产品——比如一双因数百个小时的滑板练习而磨损的旧运动鞋。据林德斯特罗姆说,乐高重新专注于提供它原来的小积木,由此实现复兴。


未来展望


随着“大数据”不再被当做热词,我们有希望逐渐对数据的威力和陷阱形成更加细致入微的理解。回头来看,收集数据的传感器和分析数据的超级计算机一下子大量涌现,引发一股淘金热,以及很多时候错失这一切的恐惧会压过你的审慎情绪,都是可以理解的。


与此同时,必然会有深思熟虑的人开始引起我们对这些情况的注意,大数据也不可避免地会带来反效果。


不过,大数据误用带来的威胁,不会仅仅因为我们不再用敬畏的口吻来说那个词而消失。看看Gartner 2017年技术成熟度曲线的顶峰,你会看到像机器学习和深度学习这样的词,以及代表这些计算技术的现实应用的无人驾驶汽车、虚拟助手等相关的词。


这些是基于与大数据一样的基础的新“棚架层”,它们全都依赖于大数据。它们已经走在通向真正的突破的道路上——但可以肯定的是,它们也会导致严重的错误。


(*本文内容翻译自美国知名媒体《Slate》。)