|
Hive和Spark凭借其在处理惩罚大局限数据方面的优势大获乐成,换句话说,它们是做大数据阐明的。本文重点叙述这两种产物的成长史和各类特性,通过对其本领的较量,来说明这两个产物可以或许办理的种种巨大数据处理惩罚问题。 什么是Hive? Hive是在Hadoop漫衍式文件系统上运行的开源漫衍式数据客栈数据库,用于查询和阐明大数据。数据以表格的形式存储(就像干系数据库打点系统一样)。数据操纵可以利用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL成果,使其成为一个程度可扩展的数据库,是DWH情况的绝佳选择。 Hive成长史掠影 Hive(即厥后的Apache)最初是由Facebook开拓的,开拓人员发明他们的数据在几天内呈现了从GBs到TBs的指数级增长。其时,Facebook利用Python将数据加载到RDBMS数据库中。因为RDBMS数据库只能垂直伸缩,很快就面对着机能和伸缩性问题。他们需要一个可以程度伸缩并处理惩罚大量数据的数据库。Hadoop在其时已经很风行了;不久之后,构建在Hadoop之上的Hive呈现了。Hive与RDBMS数据库雷同,但不是完整的RDBMS。 为什么选择Hive? 选择Hive的焦点原因是它是运行在Hadoop上的SQL接口。另外,它还低落了MapReduce框架的巨大性。Hive辅佐企业在HDFS上执行大局限数据阐明,使其成为一个程度可伸缩的数据库。它的SQL接口HiveQL使具有RDBMS配景的开拓人员可以或许构建和开拓机能、使拓展的数据客栈范例框架。 Hive特性和成果 Hive具有企业级的特性和成果,可以辅佐企业构建高效的高端数据客栈办理方案。 个中一些特性包罗: Hive利用Hadoop作为存储引擎,仅在HDF上运行。 专门为数据客栈操纵而构建的,不合用于OLTP或OLAP。 HiveQL作为SQL引擎,可以或许辅佐为数据客栈范例操纵构建巨大的SQL查询。Hive可以与其他漫衍式数据库(如HBase)和NoSQL数据库(如Cassandra)集成。 Hive布局 Hive架构很是简朴。它有一个Hive接口,并利用HDFS跨多个处事器存储数据,用于漫衍式数据处理惩罚。
用于数据客栈系统的Hive Hive是专为数据客栈操纵构建的数据库,尤其是那些处理惩罚万亿字节或千兆字节数据的数据库。与RDBMS的数据库雷同,但不完全沟通。如前所述,它是一个程度扩展的数据库,并操作了Hadoop的成果,使其成为一个快速执行的高局限数据库。它可以在数千个节点上运行,而且可以操作商用硬件。这使得Hive成为一款具有高机能和可扩展性的高性价比产物。 Hive集乐成能 由于支持ANSI SQL尺度,Hive可以与HBase和Cassandra.等数据库集成。这些东西对SQL的支持有限,可以辅佐应用措施对更大的数据集执行阐明和陈诉。Hive还可以与Spark、Kafka和Flume等数据流东西集成。 Hive的范围性 Hive是一个纯数据客栈数据库,以表的形式存储数据。因此,它只能处理惩罚利用SQL查询读写的布局化数据,不能用于非布局化数据。另外,Hive也不适合OLTP或OLAP操纵。 什么是Spark? Spark是一个漫衍式大数据框架,辅佐提取和处理惩罚大量RDD名目标数据,以便举办阐明。简而言之,它不是一个数据库,而是一个框架,可以利用RDD(弹性漫衍式数据)要领从数据存储区(如Hive、Hadoop和HBase)会见外部门布式数据集。由于Spark在内存中执行巨大的阐明,所以运行十分迅速。 什么是Spark Streaming? Spark Streaming是Spark的一个扩展,它可以从Web源及时流式传输及时数据,以建设各类阐明。尽量有其他东西,如Kafka和Flume可以做到这一点,但Spark成为一个很好的选择,执行真正巨大的数据阐明是须要的。Spark有本身的SQL引擎,与Kafka和Flume集成时运行精采。 Spark成长史掠影 Spark是作为MapReduce的替代方案而提出的,MapReduce是一种迟钝且资源麋集型的编程模子。因为Spark对内存中的数据举办阐明,所以不必依赖磁盘空间或利用网络带宽。 为什么选择Spark? Spark的焦点优势在于它可以或许执行巨大的内存阐明和高达千兆字节的数据流巨细,使其比MapReduce更高效、更快。Spark可以从Hadoop上运行的任何数据存储中提取数据,并在内存中并行执行巨大的阐明。此成果淘汰了磁盘输入/输出和网络争用,将其速度提高了十倍甚至一百倍。别的,Spark中的数据阐明框架还可以利用Java、Scala、Python、R甚至是SQL来构建。 Spark架构 Spark体系布局可以按照需求而变革。凡是,Spark体系布局包罗Spark流、Spark SQL、呆板进修库、图形处理惩罚、Spark焦点引擎和数据存储(如HDFS、MongoDB和Cassandra)。
Spark特性和成果 闪电般快速的阐明 |
















