在大数据时代，每家公司都要有大数据部分吗？-华夏新闻

假如这个问题换做是：在电气时代，每家公司都要有个发电厂吗？是不是会更好答复一些？

事实上每一种重大技能的呈现，城市对财富发生大的变革。在蒸汽时代，采矿机回收蒸汽机后，会带来出产效率的极大晋升，而汽船加上蒸汽机，再也不需要靠风才气帆海了。在电气时代，电灯取代了蜡烛，电报取代了快马送信，而报纸也被广播和电视所侵蚀。

可以说是现有财富加上新技能，形成了新财富。

我们回过甚来看这两次家产革命，出产蒸汽机的企业只有少量几家，而发电的企业在美国也只有通用电气和西屋电气。并不是每家企业都要从事这些基本设施的研发和出产，更多的是对新技能加以应用，发挥新技能带来的代价。

在 IT 规模，软件刚出来时，可以说是计较和存储完全稠浊在一起。有人实验将计较硬件举办疏散，歪打正着成绩了 Intel。有人实验将存储系统疏散，因而有了 Oracle。

Intel 和 Oracle 当然伟大，但它们的代价更多的还在于有宽大的企业回收了这些新的技能，在详细的行业中，发生了更大的代价。

同样，云计较这种理念当然是好，但假如每家企业都成立本身的云计较中心，从资金和人力投入上，必然是不划算的，更严重的问题是做不到最优。相反，有了 AWS 和阿里云这样的云计较提供商，让中小企业更便捷的举办创新应用。

回到题目中的问题，在大数据时代，每家公司都要有本身的大数据部分吗？结论也不能下的太武断。

早在 2008 年，云计较的观念方才鼓起，百度内部呈现了两拨势力。一拨要从零开始打造本身的大数据底层技能，把 MapReduce、GFS、BigTable 这些组件都要实现一遍，功效花了两三年时间，也没能不变运行。

而别的一拨势力，直接采用开源的 Hadoop 生态，很快在公司内应用起来。而我其时做的日志统计平台，也是回收了 Hadoop。但百度的数据局限究竟太大了，所需的集群局限，开源版本基础撑不住，于是不得不改写 Hadoop，这样就和开源的版本渐行渐远，比及厥后再也合不到一起了。

曾经有一年多的时间，我们部分新设计和实现和底层的存储及计较系统，功效发明开源的版本也差不多实现到了同样结果。固然很多内部的人以为我们怎么总反复造轮子，但我大白照旧需求使然，你面对的需求相对领先，但也没有领先到像 Google 那样提早 5 年。

但对付小公司来说，则完全没须要从零开始做，照旧要只管用开源的产物。

整个 Hadoop 生态，要比我 2008 年刚用的时候，要成熟许多。谁人时候我们去拿开源的版本，编译陈设，一个新手大概两周都不必然能正常的运转起来。而此刻下载一个 Cloudera 刊行版，两个小时就可以正常跑任务了。

与此同时，又面对了新的问题，因为大数据平台牵涉到数据的收罗、传输、建模存储、查询阐明、可视化等多个环节，而开源规模只是一些组件，于是各家公司都在纷纷打造本身的大数据平台，这就像 Oracle 之前，各家都在打造本身的存储系统。这显然不是一件性价比高的工作。

有市场需求，就会有满意相应需求的公司降生，于是就降生了一堆提供大数据处事的公司。

由于这一新规模还处于早期，这些创业公司所能提供的处事并不会出格的完善，要么是以项目制的方法运转，要么是提供专门应用场景的处事。

这样，对付一些企业来说，这些创业公司提供的处事，好像本身也能实现，那何不爽性本身做？

这创业一年多以来，我看到了太多的公司在打造本身的数据平台，但做的还不足完善。不管是技能实力照旧人力投入上，都有点力有未逮。假如选用了这些第三方数据处事，那岂不饭碗被抢了？

可我要说的是，饭碗迟早城市被抢，只是时间迟早的问题。这里只需要问一个问题：我所做的数据平台，是不是其他公司也是雷同的需求？假如是的话，那必定也有其他公司做着雷同的工作，做的对象会大同小异。

那么，就会呈现专门的公司，来办理这种通用的需求。因为这些公司专注于办理这一块问题，所以会越发专业，而且舍得投入。而对付需求公司来说，除非本身转型去专门做大数据平台，否则在投入上，必定不是一件性价比很高的工作。与其如此，不如赶早偏重于本身的焦点业务，存眷应用需求自己。

那对付企业来说，在大数据时代，应该怎么做呢？我的发起是三点：

首先，要拥抱大数据技能。

新的重大技能呈现，都带有颠覆性。一不小心，就会被革命。但也不是说企业已有的业务不消搞了，都来搞大数据吧。

在大数据这件事上，照旧要从需求出发，而不是从大数据出发。

有人会问我，我有了一些数据，给我讲讲怎么能发挥更大的代价。坦率来说，很多时候不相识业务场景，很难提出建树性的意见的。

首页 > 科技 > 数据 >