大数据规模开源技能除了Hadoop你还知道哪些-华夏新闻

众所周知，大数据正在以惊人的速度增长，险些触及各行各业，很多组织都被迫寻找新的缔造性要领来打点和节制如此复杂的数据，虽然这么做的目标不可是打点和节制数据，而是要阐明和挖掘个中的代价，来促进业务的成长。

想要深入成长大数据，闭门造车是不行能的，共通共融是此刻趋势，因此，开源让越来越多的项目可以直接回收大数据技能。如今，从小型初创企业到行业巨头，各类局限的供给商都在利用开源来处理惩罚大数据和运行预测阐明。借助开源与云计较技能，新兴公司甚至在许多方面都可以与大厂商抗衡。

开源大数据的优势不问可知，但在浩瀚的开源东西中该如何决议？本文中大数据规模的十个巨头，将有助于你更深入把握大数据这个行业的成长形势。

Hadoop——高效、靠得住、可伸缩，可以或许为你的数据存储项目提供所需的YARN、HDFS和基本架构，而且运行主要的大数据处事和应用措施。

Spark——利用简朴、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统，生长迅速，对microbatching/batching/SQL支持简朴。Spark能更好地合用于数据挖掘与呆板进修等需要迭代的MapReduce的算法。

NiFi——Apache NiFi是由美国国度安详局(NSA)孝敬给Apache基金会的开源项目，其设计方针是自动化系统间的数据流。基于其事情流式的编程理念，NiFi很是易于利用、强大、靠得住、高可设置。两个最重要的特性是其强大的用户界面和精采的数据回溯东西。堪称大数据东西箱里的瑞士军刀。

Apache Hive 2.1——Hive是成立在 Hadoop 上的数据客栈基本构架。它提供了一系列的东西，可以用来举办数据提取转化加载(ETL)，这是一种可以存储、查询和阐明存储在 Hadoop 中的大局限数据的机制。跟着最新版本的宣布，机能和成果都获得了全面晋升，Hive已成为SQL在大数据上的最佳办理方案。

Kafka——Kafka是一种高吞吐量的漫衍式宣布订阅动静系统，它可以处理惩罚消费者局限网站中的所有行动流数据。它已成为大数据系统在异步和漫衍式动静之间的最佳选择。从Spark到NiFi再到第三方插件东西以至于Java到Scala，它都提供了强大的粘合浸染。

Phoenix—是HBase的SQL驱动。今朝大量的公司回收它，并扩大其局限。HDFS支持的NoSQL可以或许很好地集成所有东西。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成尺度的JDBC功效集。

Zeppelin——Zeppelin 是一个提供交互数据阐明且基于Web的条记本。利便你做出可数据驱动的、可交互且可协作的精细文档，而且支持多种语言，包罗 Scala(利用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

Sparkling Water——H2O填补了Spark’s Machine Learning的缺口，它可以满意你所有的呆板进修。

Apache Beam——在Java中提供统一的数据历程管道开拓，而且可以或许很好地支持Spark和Flink。提供许多在线框架，开拓者无需进修太多框架。

Stanford CoreNLP——自然语言处理惩罚拥有庞大的增长空间，斯坦福正在尽力增进他们的框架。

数据

首页 > 科技 > 数据 >

大数据规模开源技能除了Hadoop你还知道哪些

热点新闻资讯

数据

首页 > 科技 > 数据 >

大数据规模开源技能 除了Hadoop你还知道哪些

热点新闻资讯

大数据规模开源技能除了Hadoop你还知道哪些