|
9月1日,由家产和信息化部指导,中国信息通信研究院、中国通信尺度化协会主办,数据中心同盟承办的“2016可信云大会”在京谨慎召开。在9月2日下午的大数据分论坛上,Hulu大数据架构组认真人董西城颁发了题为《Spark2.0新特性与展望》的演讲。
Hulu大数据架构组认真人 董西城 以下是演讲实录: 各人好,我叫董西城,本日很兴奋跟各人分享Spark2.0。我我此刻是就职于美国的一家公司,做正版的美剧和影戏。主要的市场是在北美。我之前写过Hadoop的技能黑幕这本书,主要事情是环绕Hadoop和Spark方面。 本日主要先容的是Spark2.0,我会从以下几个角度给各人分解Spark2.0。 首先简朴先容Spark,第二部门是会给各人谈谈当前Spark在互联网公司的应用,都做什么。第三部门是Spark2.0内里新的一些特性。 第一部门,Spark2.0的简介。 Spark主要是原自于Mapreduce,是美国的一些大学的博士一些大数据的研究,首先是Mapreduce有一些范围性,它受限,你要实现巨大的成果,要做许多的事情。各人从名字上也可以看出来,Mapreduce的利益是写起措施来很是简朴,缺点是太简朴了,以至于写巨大的措施要做大量的事情。第二个是机能,十年前磁盘是较量便宜的,内存是较量昂贵的,当时候许多的见识都是基于磁盘上设计一些都是,而Mapreduce是这样做的,许多的设计理念是基于磁盘举办的。所以导致他的机能很是低效。而到本日已经产生了变革了,磁盘已经成为已往了,所以在这块做了一些实验,想尽大概的在内存上做一些事情,优化框架。 别的一个配景是多种框架并存。当研究Mapreduce的这些人,在设计Mapreduce的时候,发明白其时多种框架是并存的,其时有三种并行计较的场景,第一个是批处理惩罚,好比说我要发生一个报表,来日诰日看到就可以了。最典范的是批处理惩罚,其时简朴的是Mapreduce/Hive,第二个是交互式处理惩罚,最典范的是impala/presto,第三种是及时处理惩罚,典范的是storm。像阿里巴巴有个转动的大屏幕,要及时的统计停止1点的时候生意业务量是几多,那是及时的统计,及时的汇总生意业务数据,做一个汇总展示,这是一个及时数据,有一条记录我就做一个汇总。这是多种框架并存的排场。 假如你们公司每一种应用场景都需要的话,你大概至少要有三套系统,有三个集群,这样的话打点起来,运行起来很是的贫苦。是不是能设计一套系统办理这三个场景,并且他们是一套,这样的话进修起来都是统一的,接口都是统一的,维护起来也是统一的。而不是说你要搭建三套,每一套都需要单独进修,因为它由差异的生态组成的。这样的话,你需要三个系统,这三个系统是完全的差异的方法,你的进修本钱和运维本钱城市很是高。 那么我们做了一个实验,Spark的特点,一个长短常的高效,统计上看,比Mapreduce快10到100倍,从数据上可以看到,Mapreduce长短常慢的框架。快几多倍取决于详细的场景。为什么这么高效呢?第一,它是DAG的引擎,而Mapreduce也可以把它当作DAG的引擎,可是长短常简朴的,它只有两个,点和边。假如想做很是巨大的运算,长短常很是大量的功课。假如你用Mapreduce做的话这个要做四个功课,这个是通过存储不差异的Mapreduce功课跟尾在一起的。而通用的DAG引擎,所有的数据都不需要落在这种文件系统里,直接可以通过流式的,可能是其它的方法跟尾起来。这是Spark的一个焦点的设计理念。 第二个,它可以充实的利用内存。SparK提供了充实利用内容的本领,可以把数据处理惩罚完之后做落到磁盘上可能是其它处所,长短常机动的。实际上,假如你不想用内存,可以关掉,这个时候可以做一些简朴的运算。 别的是易用的,提供了四种编程语言,代码量也比Mapreduce要小2到5倍。此刻有一个趋势,就是照旧编程语言越来越受接待,藐视说Scala,python。 第三个是与Hadoop集成,可以读写hdfs/hbase,与YARN集成。 Spark焦点理念,一个是RDD,弹性漫衍式数据集,对漫衍式数据抽象,你可以回收其它方法来实现,也是没有问题的。在RDD上,假如把这个数据转成RDD后,它提供了富厚的编程接口。比说有map,filter等等,有几多个结点都可以扩展。 Spark尚有个很是强大的方法,就是陈设方法很是的机动,你可以运行在当地,也可以运行在standalone上,也可以陈设在mesos/yarn。 Spark是一个生态系统,许多人不会编程,你可以用Spark SQL处理惩罚,你只要会写SQL就OK了。你有图的数据,做图计较,可以利用Graphx,假如你想做间隔的分类,推荐等等,有一个Mllib,这样的话,你直接操作这里提供的就OK了,Spark是一个生态系统,是一个软件站。差异的软件会办理差异的问题,好比说是不是我只用SQL就行了,欠盛情思,有一些呆板进修算法不行能只用SQL来表达,大数据,包罗人工智能,这些呆板进修,深度进修已经越来越风行。这块是SQL办理不了的,许多必需要用APR来写,虽然更多的是做一些及时统计,这种可以Spark SQL。跟着大数据地成长,许多许多的数据处理惩罚都逐渐的流式化,所以streaming也越来越受接待。 接下来我们看一下Spark在互联网上的应用。 |















