首页 资讯 财经 汽车 关注 科技 房产 图片 全国 视频

数据

旗下栏目: 业内 数据 数码 手机

想要从大数据中获益?请先做好Hadoop打点

来源:新闻门户     作者:华夏门户     浏览:次     发布时间:2020-09-11
摘要:Hadoop打点正在成为大数据用户和供给商首先思量的分陈设处理惩罚框架,它在企业的业务运营中饰演着越来越重要的脚色……

Hadoop打点正在成为大数据用户和供给商首先思量的分陈设处理惩罚框架,它在企业的业务运营中饰演着越来越重要的脚色。

Comcast公司的IT团队在对Hadoop数据湖泊举办机能打点时,思量的十分周全。

数据湖泊是一个大量信息的荟萃体,另外还包罗成千上万的CPU和高出30 pb级的存储容量。为了担保其平稳运行,IT团队实现了主动Hadoop监测和数据管理进程,另外还包罗一系列集群打点东西。

“为确保Comcast'的Hadoop用户可以正常的运行应用措施,我们开始利用数据管理成果,”Michael Fagan说道,他是位于Philadelphia的电视影戏团体的首席大数据架构师。打点事情主要包罗处事协议,用于限制业务单位的Hadoop资源操作率,另外还包罗自动化的执行机制和月度审核机制,用来评估Hadoop的性

对Hadoop集群利用和数据存储的打点是一个很热门的话题,在San Jose, Calif举行的Hadoop 2016峰会上,这个话题被遍及接头。Fagan 和其他演讲者认为,对付那些试图从大数据中获益的企业来说,有效的Hadoop打点是必需的。一些供给商正在开拓新技能,旨在实现集群监控、打点和管理任务的自动化。

举例来说,集会会议的组织者Hortonworks宣布了一个Hadoop的预览版,它集成了Atlas 和Ranger。Apache开源技能可用于给数据设置元数据,增强用户会见权限节制。Hortonworks数据平台(HDP)2.5版本,将于本月晚些时候宣布,它增加了系统日志的搜索成果,通过利用Apache Ambari(一个开源的Hadoop打点东西),提供了基于脚色的会见节制成果。

Hortonworks的竞争敌手MapR Technologies推出了Spyglass Initiative项目标第一个组件——Spyglass Initiative项目旨在建设可定制的仪表板,监控大数据平台。另外,MapR还将宣布更新各类开源东西,作为其平台季度更新“包”的一部门,以简化陈设流程;第一个MapR Ecosystem Pack 和MapR Monitoring仪表板都将在本月宣布。与此同时,数据集成和阐明软件供给商Pentaho宣布了毗连到Hadoop数据湖泊的基本设施参考蓝图。

Hadoop打点的多个方面

Comcast 在它的数据湖泊上运行HDP和Cloudera的Hadoop漫衍平台——在集群打点方面,它利用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop机能打点软件。为了在Hadoop监测数据上完成更高级的聚合,该公司还成立了一个当地打点节制台,称为Comcast Command Center。

“固然我们可以从差异的东西中获得许多谜底,但我们很难获得一致的谜底,”Ray Harrison,Comcast Hadoop平台团队的一员说道。

数据湖泊是一个多租户的数据情况,各类用户“聚积到一起,在同一个一沙盒里操纵数据,”Harrison说。可是这种要领给机能打点带来了必然的挑战。Hadoop团队本年陈设500个节点的集群,为公司数据科学家的高级阐明应用措施处事,但这是必需的,因为这些科学家正在大型数据集尽力寻找“未知的未知”,这需要强大的计较本领,现有的资源难以应付,Harrison说道。

为了跟上集群变革的节拍,Comcast 特意更新了其资源利用的管理计策,“且在已往的一年内更新了数次,”Fagan说到。下一步是数据管理:Hadoop团队开始推进数据管理项目,依靠Atlas技能来确保每个用户所利用信息的一致性。

管理为要,科技次之

数据管理是Blue Cross Blue Shield of Michigan的首要任务,该大数据平台将于五月上线。在集会会议的另一次交涉中,Detroit一家公司的阐明主管,数据工程师和数据打点者Beata Puncevic说道,她的团队在2015年4月,项目初期就首先开始着手拟定新的数据管理流程和计策,而真正开始实施技能细节已经是五个月之后的事了。

“假如你在陈设大数据东西之前,没有拟定一个强有力的数据管理进程,你很有大概会步履维艰”Puncevic说道。数据管理涉及如下步调,按照常见数据界说,建设业务术语表,拟定命据利用的新法则,办理数据质量和元数据打点的问题。“上面说的这些都很无聊”她恶作剧道。“我们一开始做的这些事情与详细技能无关。”

原始数据被输入到Hortonworks-based Hadoop集群,然后按照数据管理机制举办精辟,以供阐明。该系统最初被用来支持的阐明应用措施包罗用药和临床病例记录系统,Puncevic增补说,这大概需要特别三到五年才气完全成立起大数据架构。

Hadoop监测和管理在University of Texas MD Anderson Cancer Center的大数据待服务项上优先级很高 ,他们在3月份将一个运行HDP的Hadoop集群投入了出产情况。这家位于Houston的癌症治疗和研究机构利用集群存储一些重要的统计数据,这些数据收集于病人的床边传感器;大数据平台的其他用途还包罗对差异尝试室数据系统的集成,这些尝试室在以前是完全独立的,没有任何接洽。

传统的IT打点,管理和安详实践仍然合用于大数据情况,Vamshi Punugoti,MD Anderson认真信息系统研究的副主任暗示。

“从我们的角度来看,没来由做破例的事,”他说,我们固然方才开始大数据的路程,但这并不料味着我们能以随意的方法去做。”

责任编辑:华夏门户

热点新闻资讯

首页 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频 | 全国

Copyright © www.msgkpx.com 北京新闻网 版权所有 粤icp备10021497号-9

站务联系QQ :

电脑版 | 移动版