春日游湖不易,但居家聊聊数据湖还是可以的……

其实“数据湖”的概念由来已久,如果追溯时间大概可以到2011年。

如今我们经常提及的数据湖其实可以被认为是一个集中式的安全存储库,用户可以任何规模存储{ P Q N、管理、发现并共享所有结构化和非结构化数据,过程中无需预定义架构

具体来说,从目前数据湖的实践情况来看,集中5 b 5 !放入其中的数据基本上可归结为三种类型,分别为来自业务系统的结构化且价值较高的数据,虽然数据不大并关系复杂;日志类的庞大体量运维数据,尽管价值并不高但在企业IT架构正常运转中不可或缺f U Z % a E n p Z;以及以音频、视频等非结构化形式著称的其他数据,本身k S a u } t C _ q价值凸显但被聚合分析的几率较小。

春日游湖不易,但居家聊聊数据湖还是可以的……

通常,不同类别的数据需要凭借差异化的存储u L m p - N &设备进行保存,如今需要被放到一个池子中还能被提供各种不同的接z x ) X X J m口完成调用,的确挑战颇多,而数据湖恰好应对了这一点,即借助数据湖可以在合适的时间将对w v j ]的数据提供给正确的人,不必费心管理存储数据的不同位b = - ] v ; u l b置访问,还能对数N l d x p据机密性与安全性提供有力的保障,何乐而不为+ : { N

更多关于数据湖的周边有哪些?

据Aberdeen的一项调查数据表明,实施数据湖D w S z f 4的组织比同类公司在有机收入增长方面高出9%。究其原因,数据湖不单单可以解决便捷O F 9存储数据的问题,同时还能做到兼u ; C m B J 6 g容传统数据仓库的分析方法并尝试新类% q D型分析,例如通过日志文件、来自点击流的数据、社交媒体以及存储在数据湖中的互c 4 M 5 z c 1 i X联网连接设备等新来源的机器学习,以此作出智能决策。

可以想见,数据湖作为机器学习和人工智能的强大基础,可以帮助机器学习使用从现有数据中学习的统计算法,也被称之为训练过程,来做出有关新数据的决策。具体来说,在训练期间将识L ? r别数据中的模式和关系以建立模型,而模型就成为决策智能的关键所在,所以数据湖的双特性其实非常适用于数据科学家以及研究人员进行探索性的数据查询与分析,进行一些研究性、前瞻性的服务。

谈了如此% a @ 3 q 8多有关数据n z $ X f H f z湖的惊艳之处,究竟在技术层面,数据湖与现今经常被提起的数据库、m V Y数据@ W ! - H W仓库甚至是数据中台关系如何?众所周知,数据库被定位于一个单一j s , Q ! K Z的数据应! j n } ) T _用,将数据存储其中,有关系型与非关系型之分;而数据仓库则是一个优化的数据库形式,用于分析来自事务系统和业务线应用u ? ! f Z h v程序的关系数据,事先定义数据结构和 Schema 以优化快速 SQL 查询r 5 X n C 1,其中结果通常用于操作报告和分析。

其实在数据仓库之前( ` & Z = U还有数据集市的概念,大多数部门级别的数据均可放入其中,但晶少认为更多针对数据仓库的定义还是企业级,规模较大,也5 O P O b 5 N Y是企业IT不可忽视的内容,但由于数据仓库的要求比较局M O V E M #限,不能够适应快速发展的数据变化,数据湖时代也就应运到来了;相比之下,与数据仓库明显差异,数据湖的数据存T F l } h - R储主要来自业务线应用程序的关系数据以及移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 SchJ | h Y Pema,可以存储所有数据并使用不同类型的分析(如 SQL 查询、大数据分析、全文A L [ e / J搜索、实时分析和机器z i ( 学习)来H k C获得相应的见解。

春日游湖不易,但居家聊聊数据湖还是可以的……

谈毕数据库与数据仓库,面对时下火热的数据中台, R } & E G K,AWS首席云计算企业战略顾问张侠则表示,其实数据中台并不是数据行业的专门术语,更像是互联网时代关于应用架构; ! z t m D u _ /的专业名词。

总结一下,) N n L w O数据湖的大力涌现更多得力于云计算技术提供的海量存储以及大量方便、高性能计算的可能性,换句@ v 6 c h话说也正是因为云带来的技术创新才有了数据湖的横空出世。

AWS数据湖服务几多详情价值?

当云计算还处于懵懂年纪,AWS就已经倾力拉开了这场以技术变革为主旋律的开场大戏,掐指一算从2006年至今也已走过了十几个年头,在此过程中针对数据湖的探索更是持续不断并层出不穷。概括来i ^ & ; Q ` W [ _,AWS将数据湖有机拆分成数据e # P B B i a导入、数据分析以及数据保存等几大步骤,伴随涌现出对应数据迁移专家服务、Amazon S3等存储服务以及Amazon RedShift等为主打的分析类服务,俨然将数据湖本身定位于一种解决方案。

我们看到,AWS数据湖服务主要基于对象存储服务S3构建。Amazon S3作为一T y F n 6 N o w种高持久性、经济高效的对象存储服务可支持开放数据格式,同时将存储与计算解耦,并可做到与所有AWS技术矩阵中的分析服务集成使用。据晶少了解,Amazon S3提供了11个9的耐用性,高弹性的3个可用区架构,以 % . 及更多区域复制选项与分离,并拥有独立扩展存储和计算能力,从而为数据湖提供了最佳存储层。

春日游湖不易,但居家聊聊数据湖还是可以的……

仔细探究之后我们发现& L R,其实数据的生命周期中包含很多内容,更6 1 z Y 0 C多需要对原始数据进行最大程度的合理管控U @ j设计等,在源头上保证数据质量。“数据可以率先存储在2 k j = m } k _ bAmaW M h o : # (zonS3中,依照数据不同的量级、特点以及性质3 y O }加以处理,这是一种自动的生命Z i d p ` p a周期管理功能。”张侠总结道。

值得提及的是,在AWS庞大全面的数据湖服务中,有一种名为AWS Athena的交互式查询服务独具风格。谈及特殊,主要是其采用了时下风靡的无服务器架构,可以做到无需设置或管理基础设施就可轻松使7 $ D r *用标准 SQL 直接分析来自 Amm @ @ o n , * azon S3 的数据,也没有复杂的 ETL 过程。

春日游湖不易,但居家聊聊数据湖还是可以的……

据了解,Athena 服务使用了 Presto,即一种分布式 SQL 引擎来运行查询;9 p / 4 G @采用Apache Hive来创建、放置和修改表与分区,可快速在查询编辑器中编写符合 Hive 规范的 DDL 语句以及 ANSI SQL 语句;此外还可以在其上使用复杂的联结、窗口函数以及复杂的数据类型等。由于Athena 使用一种称为读时模式(schema-on-read) 的方法,如此可N E & J % ]以在执行查询时便捷地将 schema 投射到目标数据上。

另外,同样作为Amazon S3 数据湖的重要组成部分之一,AWS Glue与AWS Athena一样也沾了无服务器技术的光,具有无服务器托管、操作的功能,为现代数据分析提供了数据目录和转换服务。

总体来说这是一种完全托管的数& H s据目录和 ETL(提取、转换和加载)服N E W R u Y O务,可做到简化和自动化数据发现、转换和作W ~ 7 | q 5业调度中难度较大且耗时的任务。毕竟E K h据观察用户在使用数据E $ o + r i 8 y d湖架构实现数据分析解决方案时,通常有75%的时间花在数据集成任务上,需要从各种数据源提取6 ~ 6 E G k E数据,对其进行规范化,并将其加载到数据存储中,而AWS Glue则消除了ETL作业基础设施R R r z y X n方面的所有重复劳动。G | _

晶少获悉,AWS Glue使用过程中能够识别常用数据格式和数据类型的预构建分类器(classifiers)抓取数据源并构建数据目录,主要包括 CSy r 9 t ? [ ` iV、Apache Parquet、Jo A ; 8 z /SON 等;能够做到跨各种服务创建统一的元数据存储库、抓% a X 2 V取数据源以发现schema并使用新的和修改后的表与分区定义填充数据目录并做到维护scL h : y & F A . Lhemay b u版本控制;此外还可以使用其完全托管的 ETLJ H W 功能来转换数据或将其转化为列格式,以优化成本并提高性能。总体来说,通过简化创建ETL作业的过程,AWS Glue让用户可以构建可伸缩、可Y W [ z o u J Z P靠的数据准备平台,这些平台可以跨越数千个ETL作业,具有内置的依赖性解K : i R j $ + y `析、调度、资源管理和监控功能,更容易跨越各种数据存储,检索和管理所有@ 0 ) Q数据,而不必B 9 ) ~ 8 N手动搬运。

春日游湖不易,但居家聊聊数据湖还是可以的……

更值得关注的一点,AWS Glue可以和AWS Lambda以及AWS Step Functions这些无服务器服务整合在一起,并做到与机器学习和人工智能技术相结合,包括与Am] P m : y 4 yazon SageMaker协同完成更多自t f M Z d n动预测性分析,这一点比较惊艳。对此张侠表示,如今AWS已经有100多种服务来支持任何数据湖用例,更多的无服务器就地查询与处理选项可缩短获得结果的时间并降低数据洞察的成本。

“随着AWb g ] :S Glue在由西云数据运营I 3 k g C $的AWS中国(宁夏)区域正式上线,中国区域的^ 5 K 7 s D客户可以轻松地从任意多的数r W M $ {据源传输和处理数据,整合数据到数据湖并且可以选用多种AWS分析c + 6 f服务并迅速开始分析所有数据。”AWS全球副总裁及大中华区执行董事张文翊总结道。

谈到更多服务上线支持数据湖用例的情况,其实早在去年8月,AWS就发布了一项名为AWS Lake Formation的新服务,尽管目前还未在中国区上线投入使用,但却广受业内关注,主要由于该服务将在简化数y c / w t 7据湖出创建过程方面助力颇多。

例如原本几月内的创建u T h C工作可在几天内完成,并完成从数c f F r = R 6 #据库和对象存储中收集和分类数据,将数据移至新的Amazon S3数据湖中! S ? /,使用机器学习算法对数据进行清理和分类以及安全访问敏感数据等相关工作。

技术细节上,AWS La9 { B _ ) @ Z R wke Formation通过识别S3或者关系数据库和Nl g ,oSQL数据库中存储的现有数据并将E M e { n W其移动到数据湖中;此后对数据进行抓取、编目以及准备来进行有关分析,借此让用户通过其选择的分析服务安全自助访问数据,此外其他AWS服d w ( 5 C务和第三方应用程序也可以通过显示的服务方式达成访问数据的目标。至此0 6 U - F q %据湖服务最主要的三大要素,即Amazon S3/Glacier、AWS Glue以及AWS La4 B ~ O ) ~ ) !ke Formation全部集齐待发。

春日游湖不易,但居家聊聊数据湖还是可以的……

谈及这么多AWS数据湖服务的技术细节之后,想必更多看官十分关心一点:究竟哪些体量或者级别的企业适合使用数据湖?对此,张侠认为其实各种规模以及领域的企业都可采用数据湖的思路来搭建内部的数据应用平台,只是相比于中小企业,大型企业利用此做更多、更复杂的数据分析工作而已。就AWS内部业务的数据湖部署为例,本质就是更多将每天多达60万的分析任务,涉及用户推荐、运营信息、库存情况以及购买等环节,通过数据湖服务进行高效分析并作为核心竞争力延续至今。

春日游湖不易,但居家聊聊数据湖还是可以的……

春日游湖不易,但居家聊聊数据湖还是可以的……

另外据晶少知晓,2016年由嘉云数据在杭州成立的Club Factory,也o _ { j ; ~一直使用AWS数据湖服务来做数据关联,为客户在全球寻找各种各样的产品。

即每天处理15亿条各种行为分析,支撑180个数据l @ N = 9调动分析任务,以此来达成用户产品推介、内部运营分析以及供应商的管理创新等目标。当然,其实这样的实例还有很多,比如用户[ l ] L ;超三千万的小红书使用AWS数据湖存储海量的日志数据和来自社区的图片、评论、) Z T _ ]表情等7 U A % x ` /非结构化数据来分析用户的喜好;千万用户级. @ o别的流利说通过使用AWS数据湖建立了大型中国人英语语音数据库”, } x 8 r @ h此基础上开发英语r D U m f V N d j口语评测、英语写作打分引擎和深度自适应学习系统等。

从2011年发展至今,数据湖从零散的开源解决方案到目前AWS将服务整合为关y L O @ 9 M键、统一、标准的解决方案,其应用性越来越强;可想而知当物联网、5G、边缘计算等新R I X } + P N技术全面爆发之时,数据湖针对数据存储与分析的事儿就真正到了认真探讨与好好研究的关键阶段了,在此期间还会I Z v 4 有更多z $ * 7 T J 6数据智能挖掘的惊喜如期而至。