首页 资讯 财经 汽车 关注 科技 房产 图片 全国 视频

数据

旗下栏目: 业内 数据 数码 手机

开源大数据查询阐明底层技能三大基石引擎近况

来源:新闻门户     作者:华夏门户     浏览:次     发布时间:2020-06-10
摘要:大数据查询阐明是云计较中焦点问题之一,自从Google在2006年之前的几篇论文奠基云计较规模基本,尤其是GFS、Map-Re……

大数据查询阐明是云计较中焦点问题之一,自从Google在2006年之前的几篇论文奠基云计较规模基本,尤其是GFS、Map-Reduce、 Bigtable被称为云计较底层技能三大基石。GFS、Map-Reduce技能直接支持了Apache Hadoop项目标降生。Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库规模,撼动了RDBMS在商用数据库和数据客栈方面几十年的统治性职位。FaceBook的Hive项 目是成立在Hadoop上的数据客栈基本构架,提供了一系列用于存储、查询和阐明大局限数据的东西。当我们还浸淫在GFS、Map-Reduce、 Bigtable等Google技能中,并举办领略、把握、仿照时,Google在2009年之后,持续推出多项新技能,包罗:Dremel、 Pregel、Percolator、Spanner和F1。个中,Dremel促使了及时计较系统的鼓起,Pregel开发了图数据计较这个新方 向,Percolator使漫衍式增量索引更新成为文本检索规模的新尺度,Spanner和F1向我们揭示了跨数据中心数据库的大概。在Google的第 二波技能海潮中,基于Hive和Dremel,新兴的大数据公司Cloudera开源了大数据查询阐明引擎Impala,Hortonworks开源了 Stinger,Fackbook开源了Presto。雷同Pregel,UC Berkeley AMPLAB尝试室开拓了Spark图计较框架,并以Spark为焦点开源了大数据查询阐明引擎Shark。由于某电信运营商项目中大数据查询引擎选型需 求,本文将会对Hive、Impala、Shark、Stinger和Presto这五类主流的开源大数据查询阐明引擎举办扼要先容以及机能较量,最后进 行总结与展望。Hive、Impala、Shark、Stinger和Presto的进化图谱。

 开源大数据查询阐明底层技能三大基石引擎近况

图1. Impala、Shark、Stinger和Presto的进化图谱

当前主流引擎简介

基于Map-Reduce模式的Hadoop擅长数据批处理惩罚,不是出格切合即时查询的场景。及时查询一般利用MPP (Massively Parallel Processing)的架构,因此用户需要在Hadoop和MPP两种技能中选择。在Google的第二波技能海潮中,一些基于Hadoop架构的快速 SQL会见技能慢慢得到人们存眷。此刻有一种新的趋势是MPP和Hadoop相团结提供快速SQL会见框架。最近有四个很热门的开源东西出 来:Impala、Shark、Stinger和Presto。这也显示了大数据规模对付Hadoop生态系统中支持及时查询的期望。总体来 说,Impala、Shark、Stinger和Presto四个系统都是类SQL及时大数据查询阐明引擎,可是它们的技能偏重点完全差异。并且它们也不 是为了替换Hive而生,Hive在做数据客栈时长短常有代价的。这四个系统与Hive都是构建在Hadoop之上的数据查询东西,各有差异的偏重适应 面,但从客户端利用来看它们与Hive有许多的配合之处,如数据表元数据、Thrift接口、ODBC/JDBC驱动、SQL语法、机动的文件名目、存储 资源池等。Hive与Impala、Shark、Stinger、Presto在Hadoop中的干系如图2所示。Hive合用于长时间的批处理惩罚查询分 析,而Impala、Shark、Stinger和Presto合用于及时交互式SQL查询,它们给数据阐明人员提供了快速尝试、验证想法的大数据阐明工 具。可以先利用Hive举办数据转换处理惩罚,之后利用这四个系统中的一个在Hive处理惩罚后的功效数据集长举办快速的数据阐明。下面,从问题域出发简朴先容 Hive、Impala、Shark、Stinger和Presto:

 开源大数据查询阐明底层技能三大基石引擎近况

图2. Hive与Impala、Shark、Stinger、Presto在Hadoop中的干系

当前主流引擎架构

Hive

Hive是基于Hadoop的一个数据客栈东西,可以将布局化的数据文件映射为一张数据库表,并提供完整的SQL查询成果,可以将SQL语句转换为 Map-Reduce任务举办运行,十分适合数据客栈的统计阐明。其架构如图3所示,Hadoop和Map-Reduce是Hive架构的根本。Hive 架构包罗如下组件:CLI(Command Line Interface)、JDBC/ODBC、Thrift Server、Meta Store和Driver(Complier、Optimizer和Executor)。

1) Hive,披着SQL外衣的Map-Reduce。Hive是为利便用户利用Map-Reduce而在外面封装了一层SQL,由于Hive采 用了SQL,它的问题域比Map-Reduce更窄,因为许多问题,SQL表达不出来,好比一些数据挖掘算法,推荐算法、图像识别算法等,这些仍只能通过 编写Map-Reduce完成。

2) Impala:Google Dremel的开源实现(Apache Drill雷同),因为交互式及时计较需求,Cloudera推出了Impala系统,该系统合用于交互式及时处理惩罚场景,要求最后发生的数据量必然要少。

3) Shark/Spark:为了提高Map-Reduce的计较效率,Berkeley的AMPLab尝试室开拓了Spark,Spark可看 做基于内存的Map-Reduce实现,另外,伯克利还在Spark基本上封装了一层SQL,发生了一个新的雷同Hive的系统Shark。

责任编辑:华夏门户

热点新闻资讯

首页 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频 | 全国

Copyright © www.msgkpx.com 北京新闻网 版权所有 粤icp备10021497号-9

电脑版 | 移动版