|
假如这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好答复一些? 事实上每一种重大技能的呈现,城市对财富发生大的变革。在蒸汽时代,采矿机回收蒸汽机后,会带来出产效率的极大晋升,而汽船加上蒸汽机,再也不需要靠风才气帆海了。在电气时代,电灯取代了蜡烛,电报取代了快马送信,而报纸也被广播和电视所侵蚀。 可以说是现有财富加上新技能,形成了新财富。 我们回过甚来看这两次家产革命,出产蒸汽机的企业只有少量几家,而发电的企业在美国也只有通用电气和西屋电气。并不是每家企业都要从事这些基本设施的研发和出产,更多的是对新技能加以应用,发挥新技能带来的代价。 在 IT 规模,软件刚出来时,可以说是计较和存储完全稠浊在一起。有人实验将计较硬件举办疏散,歪打正着成绩了 Intel。有人实验将存储系统疏散,因而有了 Oracle。 Intel 和 Oracle 当然伟大,但它们的代价更多的还在于有宽大的企业回收了这些新的技能,在详细的行业中,发生了更大的代价。 同样,云计较这种理念当然是好,但假如每家企业都成立本身的云计较中心,从资金和人力投入上,必然是不划算的,更严重的问题是做不到最优。相反,有了 AWS 和阿里云这样的云计较提供商,让中小企业更便捷的举办创新应用。 回到题目中的问题,在大数据时代,每家公司都要有本身的大数据部分吗?结论也不能下的太武断。 早在 2008 年,云计较的观念方才鼓起,百度内部呈现了两拨势力。一拨要从零开始打造本身的大数据底层技能,把 MapReduce、GFS、BigTable 这些组件都要实现一遍,功效花了两三年时间,也没能不变运行。 而别的一拨势力,直接采用开源的 Hadoop 生态,很快在公司内应用起来。而我其时做的日志统计平台,也是回收了 Hadoop。但百度的数据局限究竟太大了,所需的集群局限,开源版本基础撑不住,于是不得不改写 Hadoop,这样就和开源的版本渐行渐远,比及厥后再也合不到一起了。 曾经有一年多的时间,我们部分新设计和实现和底层的存储及计较系统,功效发明开源的版本也差不多实现到了同样结果。固然很多内部的人以为我们怎么总反复造轮子,但我大白照旧需求使然,你面对的需求相对领先,但也没有领先到像 Google 那样提早 5 年。 但对付小公司来说,则完全没须要从零开始做,照旧要只管用开源的产物。 整个 Hadoop 生态,要比我 2008 年刚用的时候,要成熟许多。谁人时候我们去拿开源的版本,编译陈设,一个新手大概两周都不必然能正常的运转起来。而此刻下载一个 Cloudera 刊行版,两个小时就可以正常跑任务了。 与此同时,又面对了新的问题,因为大数据平台牵涉到数据的收罗、传输、建模存储、查询阐明、可视化等多个环节,而开源规模只是一些组件,于是各家公司都在纷纷打造本身的大数据平台,这就像 Oracle 之前,各家都在打造本身的存储系统。这显然不是一件性价比高的工作。 有市场需求,就会有满意相应需求的公司降生,于是就降生了一堆提供大数据处事的公司。 由于这一新规模还处于早期,这些创业公司所能提供的处事并不会出格的完善,要么是以项目制的方法运转,要么是提供专门应用场景的处事。 这样,对付一些企业来说,这些创业公司提供的处事,好像本身也能实现,那何不爽性本身做? 这创业一年多以来,我看到了太多的公司在打造本身的数据平台,但做的还不足完善。不管是技能实力照旧人力投入上,都有点力有未逮。假如选用了这些第三方数据处事,那岂不饭碗被抢了? 可我要说的是,饭碗迟早城市被抢,只是时间迟早的问题。这里只需要问一个问题:我所做的数据平台,是不是其他公司也是雷同的需求?假如是的话,那必定也有其他公司做着雷同的工作,做的对象会大同小异。 那么,就会呈现专门的公司,来办理这种通用的需求。因为这些公司专注于办理这一块问题,所以会越发专业,而且舍得投入。而对付需求公司来说,除非本身转型去专门做大数据平台,否则在投入上,必定不是一件性价比很高的工作。与其如此,不如赶早偏重于本身的焦点业务,存眷应用需求自己。 那对付企业来说,在大数据时代,应该怎么做呢?我的发起是三点: 首先,要拥抱大数据技能。 新的重大技能呈现,都带有颠覆性。一不小心,就会被革命。但也不是说企业已有的业务不消搞了,都来搞大数据吧。 在大数据这件事上,照旧要从需求出发,而不是从大数据出发。 有人会问我,我有了一些数据,给我讲讲怎么能发挥更大的代价。坦率来说,很多时候不相识业务场景,很难提出建树性的意见的。 |














