开源大数据查询阐明底层技能三大基石引擎近况-华夏新闻

大数据查询阐明是云计较中焦点问题之一，自从Google在2006年之前的几篇论文奠基云计较规模基本，尤其是GFS、Map-Reduce、 Bigtable被称为云计较底层技能三大基石。GFS、Map-Reduce技能直接支持了Apache Hadoop项目标降生。Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库规模，撼动了RDBMS在商用数据库和数据客栈方面几十年的统治性职位。FaceBook的Hive项目是成立在Hadoop上的数据客栈基本构架，提供了一系列用于存储、查询和阐明大局限数据的东西。当我们还浸淫在GFS、Map-Reduce、 Bigtable等Google技能中，并举办领略、把握、仿照时，Google在2009年之后，持续推出多项新技能，包罗：Dremel、 Pregel、Percolator、Spanner和F1。个中，Dremel促使了及时计较系统的鼓起，Pregel开发了图数据计较这个新方向，Percolator使漫衍式增量索引更新成为文本检索规模的新尺度，Spanner和F1向我们揭示了跨数据中心数据库的大概。在Google的第二波技能海潮中，基于Hive和Dremel，新兴的大数据公司Cloudera开源了大数据查询阐明引擎Impala，Hortonworks开源了 Stinger，Fackbook开源了Presto。雷同Pregel，UC Berkeley AMPLAB尝试室开拓了Spark图计较框架，并以Spark为焦点开源了大数据查询阐明引擎Shark。由于某电信运营商项目中大数据查询引擎选型需求，本文将会对Hive、Impala、Shark、Stinger和Presto这五类主流的开源大数据查询阐明引擎举办扼要先容以及机能较量，最后进行总结与展望。Hive、Impala、Shark、Stinger和Presto的进化图谱。

开源大数据查询阐明底层技能三大基石引擎近况

图1. Impala、Shark、Stinger和Presto的进化图谱

当前主流引擎简介

基于Map-Reduce模式的Hadoop擅长数据批处理惩罚，不是出格切合即时查询的场景。及时查询一般利用MPP (Massively Parallel Processing)的架构，因此用户需要在Hadoop和MPP两种技能中选择。在Google的第二波技能海潮中，一些基于Hadoop架构的快速 SQL会见技能慢慢得到人们存眷。此刻有一种新的趋势是MPP和Hadoop相团结提供快速SQL会见框架。最近有四个很热门的开源东西出来：Impala、Shark、Stinger和Presto。这也显示了大数据规模对付Hadoop生态系统中支持及时查询的期望。总体来说，Impala、Shark、Stinger和Presto四个系统都是类SQL及时大数据查询阐明引擎，可是它们的技能偏重点完全差异。并且它们也不是为了替换Hive而生，Hive在做数据客栈时长短常有代价的。这四个系统与Hive都是构建在Hadoop之上的数据查询东西，各有差异的偏重适应面，但从客户端利用来看它们与Hive有许多的配合之处，如数据表元数据、Thrift接口、ODBC/JDBC驱动、SQL语法、机动的文件名目、存储资源池等。Hive与Impala、Shark、Stinger、Presto在Hadoop中的干系如图2所示。Hive合用于长时间的批处理惩罚查询分析，而Impala、Shark、Stinger和Presto合用于及时交互式SQL查询，它们给数据阐明人员提供了快速尝试、验证想法的大数据阐明工具。可以先利用Hive举办数据转换处理惩罚，之后利用这四个系统中的一个在Hive处理惩罚后的功效数据集长举办快速的数据阐明。下面，从问题域出发简朴先容 Hive、Impala、Shark、Stinger和Presto：

开源大数据查询阐明底层技能三大基石引擎近况

图2. Hive与Impala、Shark、Stinger、Presto在Hadoop中的干系

当前主流引擎架构

Hive

Hive是基于Hadoop的一个数据客栈东西，可以将布局化的数据文件映射为一张数据库表，并提供完整的SQL查询成果，可以将SQL语句转换为 Map-Reduce任务举办运行，十分适合数据客栈的统计阐明。其架构如图3所示，Hadoop和Map-Reduce是Hive架构的根本。Hive 架构包罗如下组件：CLI（Command Line Interface）、JDBC/ODBC、Thrift Server、Meta Store和Driver(Complier、Optimizer和Executor)。

1) Hive，披着SQL外衣的Map-Reduce。Hive是为利便用户利用Map-Reduce而在外面封装了一层SQL，由于Hive采用了SQL，它的问题域比Map-Reduce更窄，因为许多问题，SQL表达不出来，好比一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写Map-Reduce完成。

2) Impala：Google Dremel的开源实现（Apache Drill雷同），因为交互式及时计较需求，Cloudera推出了Impala系统，该系统合用于交互式及时处理惩罚场景，要求最后发生的数据量必然要少。

3) Shark/Spark：为了提高Map-Reduce的计较效率，Berkeley的AMPLab尝试室开拓了Spark，Spark可看做基于内存的Map-Reduce实现，另外，伯克利还在Spark基本上封装了一层SQL，发生了一个新的雷同Hive的系统Shark。

数据

首页 > 科技 > 数据 >

开源大数据查询阐明底层技能三大基石引擎近况

热点新闻资讯