选择数据湖架构的5大来由-华夏新闻

跟着大数据的重要性和接管度的提高，人们也越来越需要思量如何组织和托管大数据。谜底之一是数据湖，在数据筹备和组织方面最遍及的数据体系布局系统。

简朴地说，它答允企业首先存储数据，然后在需要时检索数据。就像一个存储单位，你只是把你的对象存储，并在将来需要的时候找出来。

这种要领与传统的数据客栈截然差异，传统的数据客栈需要对数据举办布局化，且凡是在记录数据之前回收雷同表格的形式。数据客栈是一种牢靠形式的办理方案，它不是火速的，同时意味着特另外从头设置本钱。但迄今为止，它一直是全球企业的首选。

那么，将数据湖作为数据打点选项的主要原因有哪些？

削减本钱

因为在存储数据之前不需要设计数据的模式，所以没有前期的开拓用度。且处理惩罚数据湖的Hadoop系统是开源的，因此没有特另外软件许可本钱。

与传统数据客栈的差异之处在于，有了数据湖，ETL阶段就完全没有了。您不必知道存储在湖中的数据范例可能有几多字段。删除ETL进程意味着没有与许可、维护或增长数据布局相关的本钱。

火速性

添加新单位或单个新项目大概会改变现有的整个数据布局，从而激发特另外本钱。另外，举办这些变动所需的实现时间大概从几天到几周不等。

在数据湖中，所有的数据都已经存储，而且只有很少的变革，您可以随时查询。

这种要领辅佐企业在当今不绝变革的数据世界中保持火速性。将来几年里大概会呈现新的数据名目，个中一些甚至是此刻还无法预见的。因此，企业数据存储系统需要足够机动，在不举办重大布局变动的环境下满意所有既定和突发要求。

多种名目

数据湖可以处理惩罚各类数据名目。纵然数据湖中的一些数据看起来与其他数据无关，但从整体的角度举办组合和阐明时，它可以提供根基的业务看法。

譬喻，假如一个数据湖包括关于客户的记录，好比姓名、年数、去年的支出，以及客户在网上商店的行为统计图，很丢脸出这些细节和销售线索之间的直接接洽。然而，把所有的对象放在一起，可以发明必然年数的客户往往会更快地做出购置抉择，这大概会影响销售计策。

除了多种名目，尚有关于数据源的上下文透视图。最常见的资源包罗面向客户的应用措施、BI应用措施、销售日志等。物联网的鼓起将增加数据源和名目标数量，使数据湖成为独一靠得住的办理方案。

人工智能

由于数据湖利用非布局化数据，因此不适合利用传统的基于sql的东西举办查询。相反，由于大大都数据都具有符合的3v(体积、速度、多样性)，因此可以将其视为大数据并用于练习人工智能算法。

实际上，拥数据湖的方针是让信息及时(或险些及时)筹备好举办处理惩罚。这种动态的要领为公司提供了当即回响的时机。将所有数据放在同一个位置意味着在阐明之前检索数据的时间更少。

机动性和局限

数据湖最典范的特性大概是其可伸缩性和机动性，它可以适应企业数据的任何变革，而不需要对基本设施举办重大变动。由于整个架构是基于云的，凡是通过按利用量付费的业务模子举办会见，所以任何进级或降级都意味着只需变动您的付出打算。

这种机动性与不能及时修改的遗留系统形成了比拟。数据湖可以很容易地添加或归并数据。就像是现实中的湖泊，它可以由多条河道搜集，而且可以随时添加新的河道，而不会滋扰之前的配置。与此同时，遗留系统就像一个装水设施，任何改变都需要更多的瓶子、更多的标签和从头布置时间。

范围

尽量数据湖有许多优势，但也并不是万无一失的办理方案，也绝对不是万能药。数据湖最大的风险在于，它们大概会酿成数据沼泽，数据大概会被毫无意义地扬弃。

所有生存的数据流都应该与项目中的kpi和业务方针相团结。制止信息瘫痪的一种要领是建设可视化仪表板，通过仪表板，数据可以被正确显示，纵然不是数据库学家也可以领略数据。

【凡本网注明来历非中国IDC圈的作品，均转载自其它媒体，目标在于通报更多信息，并不代表本网附和其概念和对其真实性认真。】

首页 > 科技 > 数据 >