Hulu大数据架构组认真人董西城：Spark2.0新特性与展望-华夏新闻

9月1日，由家产和信息化部指导，中国信息通信研究院、中国通信尺度化协会主办，数据中心同盟承办的“2016可信云大会”在京谨慎召开。在9月2日下午的大数据分论坛上，Hulu大数据架构组认真人董西城颁发了题为《Spark2.0新特性与展望》的演讲。

Hulu大数据架构组认真人董西城：Spark2.0新特性与展望

Hulu大数据架构组认真人董西城

以下是演讲实录：

各人好，我叫董西城，本日很兴奋跟各人分享Spark2.0。我我此刻是就职于美国的一家公司，做正版的美剧和影戏。主要的市场是在北美。我之前写过Hadoop的技能黑幕这本书，主要事情是环绕Hadoop和Spark方面。

本日主要先容的是Spark2.0，我会从以下几个角度给各人分解Spark2.0。

首先简朴先容Spark，第二部门是会给各人谈谈当前Spark在互联网公司的应用，都做什么。第三部门是Spark2.0内里新的一些特性。

第一部门，Spark2.0的简介。

Spark主要是原自于Mapreduce，是美国的一些大学的博士一些大数据的研究，首先是Mapreduce有一些范围性，它受限，你要实现巨大的成果，要做许多的事情。各人从名字上也可以看出来，Mapreduce的利益是写起措施来很是简朴，缺点是太简朴了，以至于写巨大的措施要做大量的事情。第二个是机能，十年前磁盘是较量便宜的，内存是较量昂贵的，当时候许多的见识都是基于磁盘上设计一些都是，而Mapreduce是这样做的，许多的设计理念是基于磁盘举办的。所以导致他的机能很是低效。而到本日已经产生了变革了，磁盘已经成为已往了，所以在这块做了一些实验，想尽大概的在内存上做一些事情，优化框架。

别的一个配景是多种框架并存。当研究Mapreduce的这些人，在设计Mapreduce的时候，发明白其时多种框架是并存的，其时有三种并行计较的场景，第一个是批处理惩罚，好比说我要发生一个报表，来日诰日看到就可以了。最典范的是批处理惩罚，其时简朴的是Mapreduce/Hive，第二个是交互式处理惩罚，最典范的是impala/presto，第三种是及时处理惩罚，典范的是storm。像阿里巴巴有个转动的大屏幕，要及时的统计停止1点的时候生意业务量是几多，那是及时的统计，及时的汇总生意业务数据，做一个汇总展示，这是一个及时数据，有一条记录我就做一个汇总。这是多种框架并存的排场。

假如你们公司每一种应用场景都需要的话，你大概至少要有三套系统，有三个集群，这样的话打点起来，运行起来很是的贫苦。是不是能设计一套系统办理这三个场景，并且他们是一套，这样的话进修起来都是统一的，接口都是统一的，维护起来也是统一的。而不是说你要搭建三套，每一套都需要单独进修，因为它由差异的生态组成的。这样的话，你需要三个系统，这三个系统是完全的差异的方法，你的进修本钱和运维本钱城市很是高。

那么我们做了一个实验，Spark的特点，一个长短常的高效，统计上看，比Mapreduce快10到100倍，从数据上可以看到，Mapreduce长短常慢的框架。快几多倍取决于详细的场景。为什么这么高效呢？第一，它是DAG的引擎，而Mapreduce也可以把它当作DAG的引擎，可是长短常简朴的，它只有两个，点和边。假如想做很是巨大的运算，长短常很是大量的功课。假如你用Mapreduce做的话这个要做四个功课，这个是通过存储不差异的Mapreduce功课跟尾在一起的。而通用的DAG引擎，所有的数据都不需要落在这种文件系统里，直接可以通过流式的，可能是其它的方法跟尾起来。这是Spark的一个焦点的设计理念。

第二个，它可以充实的利用内存。SparK提供了充实利用内容的本领，可以把数据处理惩罚完之后做落到磁盘上可能是其它处所，长短常机动的。实际上，假如你不想用内存，可以关掉，这个时候可以做一些简朴的运算。

别的是易用的，提供了四种编程语言，代码量也比Mapreduce要小2到5倍。此刻有一个趋势，就是照旧编程语言越来越受接待，藐视说Scala，python。

第三个是与Hadoop集成，可以读写hdfs/hbase，与YARN集成。

Spark焦点理念，一个是RDD，弹性漫衍式数据集，对漫衍式数据抽象，你可以回收其它方法来实现，也是没有问题的。在RDD上，假如把这个数据转成RDD后，它提供了富厚的编程接口。比说有map，filter等等，有几多个结点都可以扩展。

Spark尚有个很是强大的方法，就是陈设方法很是的机动，你可以运行在当地，也可以运行在standalone上，也可以陈设在mesos/yarn。

Spark是一个生态系统，许多人不会编程，你可以用Spark SQL处理惩罚，你只要会写SQL就OK了。你有图的数据，做图计较，可以利用Graphx，假如你想做间隔的分类，推荐等等，有一个Mllib，这样的话，你直接操作这里提供的就OK了，Spark是一个生态系统，是一个软件站。差异的软件会办理差异的问题，好比说是不是我只用SQL就行了，欠盛情思，有一些呆板进修算法不行能只用SQL来表达，大数据，包罗人工智能，这些呆板进修，深度进修已经越来越风行。这块是SQL办理不了的，许多必需要用APR来写，虽然更多的是做一些及时统计，这种可以Spark SQL。跟着大数据地成长，许多许多的数据处理惩罚都逐渐的流式化，所以streaming也越来越受接待。

接下来我们看一下Spark在互联网上的应用。

数据

首页 > 科技 > 数据 >

Hulu大数据架构组认真人董西城：Spark2.0新特性与展望

热点新闻资讯