首页 资讯 财经 汽车 关注 科技 房产 图片 全国 视频

数据

旗下栏目: 业内 数据 数码 手机

大数据规模开源技能 除了Hadoop你还知道哪些

来源:新闻门户     作者:华夏门户     浏览:次     发布时间:2020-09-07
摘要:众所周知,大数据正在以惊人的速度增长,险些触及各行各业,很多组织都被迫寻找新的缔造性要领来打点和节制如……

众所周知,大数据正在以惊人的速度增长,险些触及各行各业,很多组织都被迫寻找新的缔造性要领来打点和节制如此复杂的数据,虽然这么做的目标不可是打点和节制数据,而是要阐明和挖掘个中的代价,来促进业务的成长。

想要深入成长大数据,闭门造车是不行能的,共通共融是此刻趋势,因此,开源让越来越多的项目可以直接回收大数据技能。如今,从小型初创企业到行业巨头,各类局限的供给商都在利用开源来处理惩罚大数据和运行预测阐明。借助开源与云计较技能,新兴公司甚至在许多方面都可以与大厂商抗衡。

开源大数据的优势不问可知,但在浩瀚的开源东西中该如何决议?本文中大数据规模的十个巨头,将有助于你更深入把握大数据这个行业的成长形势。

Hadoop——高效、靠得住、可伸缩,可以或许为你的数据存储项目提供所需的YARN、HDFS和基本架构,而且运行主要的大数据处事和应用措施。

Spark——利用简朴、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,生长迅速,对microbatching/batching/SQL支持简朴。Spark能更好地合用于数据挖掘与呆板进修等需要迭代的MapReduce的算法。

NiFi——Apache NiFi是由美国国度安详局(NSA)孝敬给Apache基金会的开源项目,其设计方针是自动化系统间的数据流。基于其事情流式的编程理念,NiFi很是易于利用、强大、靠得住、高可设置。两个最重要的特性是其强大的用户界面和精采的数据回溯东西。堪称大数据东西箱里的瑞士军刀。

Apache Hive 2.1——Hive是成立在 Hadoop 上的数据客栈基本构架。它提供了一系列的东西,可以用来举办数据提取转化加载(ETL),这是一种可以存储、查询和阐明存储在 Hadoop 中的大局限数据的机制。跟着最新版本的宣布,机能和成果都获得了全面晋升,Hive已成为SQL在大数据上的最佳办理方案。

Kafka——Kafka是一种高吞吐量的漫衍式宣布订阅动静系统,它可以处理惩罚消费者局限网站中的所有行动流数据。它已成为大数据系统在异步和漫衍式动静之间的最佳选择。从Spark到NiFi再到第三方插件东西以至于Java到Scala,它都提供了强大的粘合浸染。

Phoenix—是HBase的SQL驱动。今朝大量的公司回收它,并扩大其局限。HDFS支持的NoSQL可以或许很好地集成所有东西。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成尺度的JDBC功效集。

Zeppelin——Zeppelin 是一个提供交互数据阐明且基于Web的条记本。利便你做出可数据驱动的、可交互且可协作的精细文档,而且支持多种语言,包罗 Scala(利用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满意你所有的呆板进修。

Apache Beam——在Java中提供统一的数据历程管道开拓,而且可以或许很好地支持Spark和Flink。提供许多在线框架,开拓者无需进修太多框架。

Stanford CoreNLP——自然语言处理惩罚拥有庞大的增长空间,斯坦福正在尽力增进他们的框架。

责任编辑:华夏门户
首页 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频 | 全国

Copyright © www.msgkpx.com 北京新闻网 版权所有 粤icp备10021497号-9

站务联系QQ :

电脑版 | 移动版