人工智能和大数据存在什么隐患？-华夏新闻

从数据稀缺到此刻有大量的数据，连年来，可用的数据量呈指数级增长，大数据变得无处不在。这是由于数据记录设备数量的庞大增长，以及这些设备之间通过物联网毗连。好像每小我私家都有收集、阐明大数据的气力。

可是，大数据真的是万能的吗？毫无疑问，大数据已经在某些规模发生了至关重要的影响。譬喻，险些每一个乐成的人工智能办理方案都涉及大数据处理惩罚问题。

首先要留意的是，尽量AI今朝很是擅长在大型数据会合查找模式和干系，但它仍然不是很智能。计较数字可以有效地识别并发明数据中的细微模式，但不能直接汇报我们这些相关干系中哪些实际上有意义。

相关性和因果干系

我们都知道“相关性并不料味着因果干系。“然而，人类的大脑天生就会寻找纪律，当我们看到曲线倾斜在一起，数据中呈现明明的纪律时，我们的大脑就会自动给出纪律。”

然而，从统计数据来看，我们仍然无法实现这一奔腾。《虚假相关性》(false)一书的作者Tyler Vigen在本身的网站上对此举办了挖苦，尚有许多例子好比展示冰淇淋是如何明明地导致很多坏事的，从丛林大火到鲨鱼袭击和脊髓灰质炎发作。

看看这些情节，人们大概会争冲突，我们很大概早就应该克制冰淇淋了。并且，实际上，在1940年月的小儿麻木症例子中，民众卫生专家发起人们遏制吃冰淇淋作为“反政治饮食”的一部门。幸运的是，他们最终意识到小儿麻木症暴发与冰淇淋消费之间的相关性是“完全是由于小儿麻木症的发作在夏季最为普遍”。

在统计中，虚假干系或虚假相关性是一种数学干系，个中两个或多个事件或变量相关联，但由于某种偶尔的或某些第三个未见因素的存在而因果相关（称为“常见响应”变量”、“稠浊因素”或“暗藏变量”）。这样的“暗藏变量”的例子可以是冰淇淋销量与鲨鱼袭击之间的相关性（固然冰淇淋销量的增长不会导致鲨鱼袭击人们）。可是，这两个数字之间有一个配合的环节，即温度。较高的温度导致更多的人购置冰淇淋以及更多的人去游泳。因此，这个“潜变量”确实是表观相关性的原因。幸运的是，我们已经学会将因果干系与因果干系分隔。并且，在炎热的夏日，我们仍然可以享受冰淇淋，而不必担忧小儿麻木症发作和鲨鱼袭击！

相关性的气力和范围性

有了足够的数据，将会发明计较本领和统计较法的模式。但并不是所有的模式都有意义，因为虚假模式的数量很容易高出有意义的模式。将大数据与算法团结起来，假如能正确地应用于办理问题，将是一个很是有用的东西。然而，没有科学家会认为你可以通过单独处理惩罚数据来办理这个问题，无论统计阐明是何等强大，您应该始终基于对要办理的问题的根基领略来举办阐明。

数据科学是科学的终结吗?

2008年6月，《连线》(Wired)杂志前主编C. Anderson写了一篇颇具煽动性的文章，题为《理论的终结:数据洪水使科学要领过期》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相关性代替因果干系，纵然没有连贯的模子和统一的理论，科学也能进步。”

这种要领的强度和通用性依赖于数据量:数据越多，基于计较发明的相关性的要领就越强大和有效。我们可以简朴地把数字输入计较机，让统计较法自动发明有趣的模式和看法。

可是，这种简化的阐明要领也存在一些潜在的陷阱，可以通过John Poppelaars在博客上找到的示例很好地说明：

假设我们要为某些变量Y建设一个预测模子。譬喻公司的股价、在线告白的点击率或下周的天气。接下来，我们收集所有可以利用的数据，并将其放入统计进程中，以找到Y的最佳预测模子。常见的进程是首先利用所有变量对模子举办预计，筛选出不重要的变量，然后利用所选的变量子集从头估算模子，然后反复此进程，直到找到重要的模子为止。

可是，Anderson提出的阐明要领存在一些严重的缺陷。我选择了一个实例，从0到1的匀称漫衍中抽取100个样本，为Y建设了一组数据点，所以它是随机噪声。接下来，我通过从0到1之间的匀称漫衍中抽取100个样本，建设了一组50个表明变量X(I)。因此，所有50个表明变量也是随机噪声。我利用所有的X(I)变量来预测y，预计一个线性回归模子。因为没有任何相关的对象(所有的均布和自变量)，所以期望R²(0)，但实际上不是。功效是0。5。对付基于随机噪声的回回来说还不错!幸运的是，这个模子并不重要。慢慢剔除不显著的变量，从头预计模子。反复这个进程，直到找到一个重要的模子。颠末几个步调后，发明一个显著性模子，调解后的R平方为0.4,7个变量的显著性程度至少为99%。再次，我们是在回归随机噪声，它绝对没有干系，但我们仍然找到一个有7个重要参数的显著模子。假如我们只是将数据输入统计较法来寻找模式，就会呈现这种环境。

数据集越大，噪声越强

数据

首页 > 科技 > 数据 >

人工智能和大数据存在什么隐患？

热点新闻资讯