数据中台 | 如何优化企业"数据消费"策略

随着大数据时代的到来,企业的数据消费模式发生转变并不断升级。企业正在清晰地认识大数据的价值并加以利用,通过数据分析找出并满足消费者的需求,在这场数字变革中实现转型。因此,本文主要讨论了在大数据时代下的企业数据消费层面的场景和面临的问题以及企业如何运用大数据技术来提升数据消费策略,适应时代变化。

在和大量客户访谈的过程中,常常碰到客户会面临以下问题:
当需要使用来自多个系统的数据,企业必须开发多个API来获得所有的数据,费时费力。
当业务发生变化时,在数据仓库内进行数据抽取和准备,再到最后反映到报表层面的变化常常赶不上业务需求。
数据架构设计中,有些应用包含多个数据库,当想对整个系统跨越多个数据库做一些统计会非常复杂。特别是Hadoop等非关系数据的加入让这样的管理会更痛苦。
经过研究下列3个客户用例常常会导致上述问题

BI(商业智能)仪表盘

大型企业的业务不断发展,数据持久层将变得更加复杂。例如,有多个分离的数据库用于财务、生产、销售。如果业务板块复杂,也可能有多个数据库用于不同的行业板块。当然每个数据库中的表和数据量也可能是非常巨大的。

企业高管希望有BI仪表盘来支持决策。如果仪表盘需要能动态反映业务实时变化并且支持下钻明细,BI仪表盘可能需要涉及几个数据库中的大量数据表。

业务流程中的数据需要

一些业务场景需要复杂的SQL查询作为流程的一部分,如数据验证等。

例如,公司有多个依赖的信息系统。在一些特定的业务场景中,我们需要根据几个信息系统来验证客户的请求。

在这种情况下,数据服务的质量和性能会对直接业务流程的结果产生影响。

机器学习等高级分析

如果公司业务是 "数据驱动 "的,或者它的业务交易产生了大量高速的数据,那么涉及高级分析是很常见的,如机器学习技术来提高业务效率,识别能力等。

在这种情况下,手动从多个系统中提取数据以训练机器学习模型或将正确的数据输入已部署的模型可能是一场噩梦。

以上问题的三种常见解决方案
1、自开发数据服务

经济性

可维护性

灵活性

这种解决方案指的是通过自开发或者利用某些开源组件(例如MyBatis)搭建一个基于应用需求的服务来连接多个系统,并在返回到数据消费实体之前简单汇总结果。

这种解决方案是强烈的需求驱动的。也就是说,每当你需要另一个复杂的查询时,你要么需要在现有的中间服务中添加更多的功能,甚至常常需要重构服务(这可能是因为DBMS/Hadoop使用的接口完全不同)。

因此,这种解决方案的可维护性和经济性是最差的,虽然可能在短时间内比较贴近业务系统需求。

优点:

面向需求,只开发你需要的东西

缺点:

没有建立整体 "平台",所以未来新的类似需求将需要几乎相同的工作量。
这种解决方案没有标准。实现的效果和稳定性完全取决于开发者水平。
安全性比较差,没办法做到全局数据消费管控。

2、企业级数据仓库(数据湖)

经济性

可维护性

灵活性

在分析这个方案前想说明,企业级数据仓的建设有多方面意义,并不是仅仅有关于特定数据消费场景。对于大型企业,构建企业级数据仓库(数据湖)还是有很多价值的。

数据仓库可能是目前行业中最流行的解决方案。其基本思想是建立一个可以从多个信息系统中提取的系统,然后将所有符合数据仓库标准(星形或雪花模式)的数据存储在一个数据仓库中。

一个企业数据仓库通常包括以下部分

ETL/ELT数据管道,从各种数据源提取数据,然后对数据进行转换,将其加载到数据仓库中。

数据仓库与普通的交易型数据库不同,它侧重于提高插入/更新/删除的性能,数据仓库是面向分析的的,是为查询而优化的。因此,从多个数据源中提取数据,并在将其存储到数据仓库之前对其进行预先汇总是非常常见的,所以数据可以通过简单的查询几个表而不是几十个表来消费。

优点:

可以减少业务系统的压力,因为分析查询都发生在独立系统。
数据是被预先汇总过的,查询性能更有保证。
可以储存追踪历史数据,在业务事务性数据库中可能会失去这部分信息。
缺点:

数据仓库中的数据会有延迟。
如果其中一个数据源改变了它的数据结构,ETL/ELT也需要相应的改变,这可能会导致大量的工作,以及在改变过程中可能出现的数据差异。
业务用户如果需要大量数据进行二次分析或者机器学习训练等操作,数据导出等操作比较复杂

3、麦聪数据统一服务平台
经济性

可维护性

灵活性

类似与DataMesh架构等面向数据消费的数据服务平台还是一个比较新的概念。其中主要包含以下几部分内容。平台建设的重点从后端数据储存转移到终端用户的消费。在企业后端系统和前端展示之间建立一个以数据服务API为主要组成的数据消费层,用户消费数据方式可以更直接更自由,例如可以建立数据产品市场(以电商方式自助式的消费数据)。当然与之对应的需要同步建立数据资产管理,数据产品API开发工具,管理审批和权限控制等。

同时由于平台本身的可扩展性,后续增加新的数据源无需二次开发。API服务本身也可以最大程度的被重用和不断优化。整个数据消费层面的壁垒被打破,数据消费水平可以不断提高增加数据资产变现成业务资产的能力。

优点:

麦聪数据统一服务平台是真正的 "单一真相来源",因为它不需要数据仓库那样不断复制数据。
最大限度地提高了企业层面所有数据消费的灵活性和敏捷性。例如,它可以在整个公司实现 "自我服务 "的数据消费。
无需大幅改变目前架构,非侵入式实施可以保持技术连续性
对不同的数据平台包括业务系统数据进行全局管控,方便企业理解真实数据产品情况并加以有效使用
缺点:

前期需要投入采购或订阅平台软件

总结
本文介绍了目前企业数据消费层面的常见场景和问题。并介绍了3种主要优化和平台构建的思路。事实上在一个数据驱动的公司的发展过程中,每家公司都会根据实际业务情况进行选择。但是伴随着业务的增长和数字化转型的深入,面向数据消费的数据统一服务平台甚至数据市场的建立可能会是越来越多的企业客户的选择。