|
从数据稀缺到此刻有大量的数据,连年来,可用的数据量呈指数级增长,大数据变得无处不在。这是由于数据记录设备数量的庞大增长,以及这些设备之间通过物联网毗连。好像每小我私家都有收集、阐明大数据的气力。 可是,大数据真的是万能的吗?毫无疑问,大数据已经在某些规模发生了至关重要的影响。譬喻,险些每一个乐成的人工智能办理方案都涉及大数据处理惩罚问题。 首先要留意的是,尽量AI今朝很是擅长在大型数据会合查找模式和干系,但它仍然不是很智能。计较数字可以有效地识别并发明数据中的细微模式,但不能直接汇报我们这些相关干系中哪些实际上有意义。 相关性和因果干系 我们都知道“相关性并不料味着因果干系。“然而,人类的大脑天生就会寻找纪律,当我们看到曲线倾斜在一起,数据中呈现明明的纪律时,我们的大脑就会自动给出纪律。” 然而,从统计数据来看,我们仍然无法实现这一奔腾。《虚假相关性》(false)一书的作者Tyler Vigen在本身的网站上对此举办了挖苦,尚有许多例子好比展示冰淇淋是如何明明地导致很多坏事的,从丛林大火到鲨鱼袭击和脊髓灰质炎发作。 看看这些情节,人们大概会争冲突,我们很大概早就应该克制冰淇淋了。 并且,实际上,在1940年月的小儿麻木症例子中,民众卫生专家发起人们遏制吃冰淇淋作为“反政治饮食”的一部门。幸运的是,他们最终意识到小儿麻木症暴发与冰淇淋消费之间的相关性是“完全是由于小儿麻木症的发作在夏季最为普遍”。 在统计中,虚假干系或虚假相关性是一种数学干系,个中两个或多个事件或变量相关联,但由于某种偶尔的或某些第三个未见因素的存在而因果相关(称为“常见响应”变量”、“稠浊因素”或“暗藏变量”)。这样的“暗藏变量”的例子可以是冰淇淋销量与鲨鱼袭击之间的相关性(固然冰淇淋销量的增长不会导致鲨鱼袭击人们)。可是,这两个数字之间有一个配合的环节,即温度。较高的温度导致更多的人购置冰淇淋以及更多的人去游泳。因此,这个“潜变量”确实是表观相关性的原因。幸运的是,我们已经学会将因果干系与因果干系分隔。并且,在炎热的夏日,我们仍然可以享受冰淇淋,而不必担忧小儿麻木症发作和鲨鱼袭击! 相关性的气力和范围性 有了足够的数据,将会发明计较本领和统计较法的模式。但并不是所有的模式都有意义,因为虚假模式的数量很容易高出有意义的模式。将大数据与算法团结起来,假如能正确地应用于办理问题,将是一个很是有用的东西。然而,没有科学家会认为你可以通过单独处理惩罚数据来办理这个问题,无论统计阐明是何等强大,您应该始终基于对要办理的问题的根基领略来举办阐明。 数据科学是科学的终结吗? 2008年6月,《连线》(Wired)杂志前主编C. Anderson写了一篇颇具煽动性的文章,题为《理论的终结:数据洪水使科学要领过期》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相关性代替因果干系,纵然没有连贯的模子和统一的理论,科学也能进步。” 这种要领的强度和通用性依赖于数据量:数据越多,基于计较发明的相关性的要领就越强大和有效。我们可以简朴地把数字输入计较机,让统计较法自动发明有趣的模式和看法。 可是,这种简化的阐明要领也存在一些潜在的陷阱,可以通过John Poppelaars在博客上找到的示例很好地说明 : 假设我们要为某些变量Y建设一个预测模子。譬喻公司的股价、在线告白的点击率或下周的天气。接下来,我们收集所有可以利用的数据,并将其放入统计进程中,以找到Y的最佳预测模子。常见的进程是首先利用所有变量对模子举办预计,筛选出不重要的变量,然后利用所选的变量子集从头估算模子,然后反复此进程,直到找到重要的模子为止。 可是,Anderson提出的阐明要领存在一些严重的缺陷。我选择了一个实例,从0到1的匀称漫衍中抽取100个样本,为Y建设了一组数据点,所以它是随机噪声。接下来,我通过从0到1之间的匀称漫衍中抽取100个样本,建设了一组50个表明变量X(I)。因此,所有50个表明变量也是随机噪声。我利用所有的X(I)变量来预测y,预计一个线性回归模子。因为没有任何相关的对象(所有的均布和自变量),所以期望R²(0),但实际上不是。功效是0。5。对付基于随机噪声的回回来说还不错!幸运的是,这个模子并不重要。慢慢剔除不显著的变量,从头预计模子。反复这个进程,直到找到一个重要的模子。颠末几个步调后,发明一个显著性模子,调解后的R平方为0.4,7个变量的显著性程度至少为99%。再次,我们是在回归随机噪声,它绝对没有干系,但我们仍然找到一个有7个重要参数的显著模子。假如我们只是将数据输入统计较法来寻找模式,就会呈现这种环境。 数据集越大,噪声越强 |














