|
首先让我们来聊聊什么是大数据。大数据这个观念已经出来许多年了(高出 10 年),但一直没有一个精确的界说(也许也并不需要)。数据工程师(DataEngineer)对大数据的领略会更多从技能和系统的角度去领略,而数据阐明人员(Data Analyst)对大数据领略会从产物的角度去领略,所以数据工程师(Data Engineer) 和数据阐明人员(Data Analyst)所领略的大数据必定是有差此外。我所领略的大数据是这样的,大数据不是单一的一种技能可能产物,它是所有与数据相关的综合学科。看大数据我会从 2 个维度来看,一个是数据流的维度(下图的程度轴),别的一个是技能栈的维度(下图的纵轴)。
其实我一直不太喜欢张口缄口讲“大数据”,我更喜欢说“数据”。因为大数据的本质在于“数据”,而不是“大”。由于媒体一直重点鼓吹大数据的“大”,所以有时候我们往往会突然大数据的本质在“数据”,而不是“大”,“大”只是你看到的表相,本质照旧数据自身。 在我们讲清楚大数据的寄义之后,我们来聊聊大数据今朝到底处在一个什么样的位置。从汗青成长的角度来看,每一项新技能城市经验下面这样一个技能成熟度曲线。
当一项新技能刚出来的时候人们会很是乐观,经常觉得这项技能会给人类带来庞大的厘革,对此持有过高的期望,所以这项技能一开始会以很是快的速度受到各人追捧,然后达到一个巅峰,之后人们开始认识到这项新技能并没有当初预想的那么具有革命性,然后会过于灰心,之后就会经验泡沫阶段。等寂静必然阶段之后,人们开始回归理性,正视这项技能的代价,然后开始正确的应用这项技能,以后这项技能开始走向稳步向前成长的阶梯。(题外话,笔者在看这幅图的时候也遐想到了一个汉子对婚姻观点的曲线图,各人本身脑补)。 从大数据的汗青来看,大数据已经经验了 2 个重要阶段 两个重要阶段是指过高期望的峰值和泡沫化的底谷期 。此刻正处于稳步向前成长的阶段。我们可以从 googletrend 上 big data 的曲线就能印证。大数据约莫从 2009 年开始走向人们的视野,在 2015 年阁下走向了巅峰,然后逐步走向下降通道(虽然这张曲线并不会和上面这张技能成熟度曲线完全拟合,好比技能曲线处在下降通道有大概会使接头这项技能的搜索量增加)。
数据局限会继承扩大,大数据将继承发扬光大 前面已经提到过,大数据已经渡过了过高期望的峰值和泡沫化的底谷期,此刻正在稳步向前成长。做这样判定主要有以下 2 个原因: 上游数据局限会继承增长,出格是由于 IOT 技能的成长和成熟,以及将来 5G 技能的铺开。在可预测的将来,数据局限仍将继承快速增长,这是可以或许发动大数据一连不变向前成长的根基动力。 下游数据财富尚有许多成长的空间,尚有很大都据的代价我们没有挖掘出来。 固然此刻人工智能,区块链抢去了大数据的风口位置,也许大数据成不了将来的主角,但大数据也绝对不是跑龙套的,大数据仍将饰演一个重要而基本的脚色。可以这么说,只要有数据在,大数据就永远不会过期。我想在大部门人的有生之年,我们城市见证大数据的一连向上成长。 数据的及时性需求将越发突出 之前大数据碰着的最大挑战在于数据局限大(所以各人会称之为“大数据”),颠末家产界多年的尽力和实践,局限大这个问题根基已包办理了。接下来几年,更大的挑战在于速度,也就是及时性。而大数据的及时性并不是指简朴的传输数据可能处理惩罚数据的及时性,而是从端到端的及时,任何一个步调速度慢了,就影响整个大数据系统的及时性。所以大数据的及时性,包罗以下几个方面: 快速获取和传输数据 快速计较处理惩罚数据 及时可视化数据 在线呆板进修,及时更新呆板进修模子 今朝以 Kafka,Flink 为代表的流处理惩罚计较引擎已经为及时计较提供了坚硬的底层技能支持,相信将来在及时可视化数据以及在线呆板进修方面会有更多优秀的产物涌现出来。当大数据的及时性加强之后,在数据消费端会发生更多有代价的数据,从而形成一个更高效的数据闭环,促进整个数据流的良性成长。 大数据基本设施往云上迁移势不行挡 |

















