建设大数据平台,从“治理”数据谈起


 发布日期:2017-06-21 11:41:25    来源:王轩 EAWorld          

1.大数据时代是否还需要数据治理?

在数据平台开发中随处可见的数据问题

大数据并非凭空而来。第一个数据仓库诞生于1981年。它已有近40年的历史,与数据仓库相比,我还是一个年轻人。国内企业数据平台的建设可能始于20世纪90年代末,自第一代架构出现以来已有近20年的历史。

1.jpg

在过去的20年里,国内数据平台的实施可以说是折磨,数据项目还没有看到,这是臭名昭着的肮脏工作。

2.jpg

可以说忽视数据治理给数据平台的构建带来了许多问题。无处不在的数据不统一,难以改进的数据质量,难以完成的数据模型,以及其他有限的基本数据问题,限制了数据平台的发展,而数据应用无法显示效果很快。

作为典型商业智能应用的一个例子,在驾驶舱的管理中可能已经听到许多驾驶舱。许多公司已经建造了一个管理驾驶舱,但在建造之后,它们经常成为家具。只有当领导者需要关注它时,每个人都会拼命地改变数据。 。

为什么数据平台的构建遇到如此多的“罐头”而难以真正发挥其商业价值?实际上,核心问题是数据本身并不统一,而且数据内容的准确性不高。

数据治理逐渐得到各行业的认可

首先意识到中国数据治理重要性的行业银行是金融业。由于对数据的强烈依赖,金融业一直非常重视数据平台的建设。经过几代数据平台验证,发现数据治理是平台建设的主要限制因素,随着投资和建设投资的增加,数据治理对重要性的理解也越来越深入。

中国人民银行和中国银行业监督管理委员会也非常重视数据治理。自2008年以来,它已在全国银行业实施统一的数据标准,以控制行业的数据质量。工商银行,建设银行和国开等大型银行都非常重视数据治理。 08年前,我们开始与国开建立数据治理。下图显示了国家开发银行数据生命周期的数据管理和控制。

3.jpg

如今,各行各业都开始建设大数据平台,希望利用大数据的力量实现数字化转型。大数据平台的构建本质上是数据的构建。大数据平台可能会遇到传统数据平台遇到的所有问题。由于数据量的变化,大数据平台将不可避免地产生新的问题。

大数据时代需要新一代数据治理功能

数据是不可知的:用户不知道大数据平台中的数据是什么,他们不知道数据与业务之间的关系是什么。虽然他们意识到大数据的重要性,但解决他们面临的业务问题是否有任何关键?数据?我在哪里可以找到这些数据?

无法控制的数据:无法控制的数据是传统数据平台以来一直存在的问题,并且在大数据时代变得越来越明显。没有统一的数据标准,数据很难整合和统一。没有质量控制,大量数据由于质量低而难以利用,并且没有可以有效管理整个大数据平台的管理流程。

数据是不可取的:即使用户知道他们的业务需要什么数据,他们也无法方便地获得数据和自助。相反,获取数据需要很长的开发过程,这使得很难快速满足业务分析的需要。在这个时代,企业追求快速分析某个业务问题,以便长时间的需求响应时间很难满足业务需求。

数据无法链接:在大数据时代,企业拥有大量数据,但企业数据知识之间的相关性依然较弱。如果没有数据和知识系统的关联,员工很难快速转换数据和知识。数据的自我探索和挖掘使得难以反映数据的深层价值。

4.jpg

通过分析上述四类问题,我们发现传统数据平台所面临的问题并未在大数据时代消失,并出现了新的问题。传统的数据治理需要提高其在大数据平台构建中解决这些问题的能力。问题。

在传统的数据平台阶段,数据治理的目标主要是控制和建立数据部门的治理工作环境,包括标准和质量。在大数据平台阶段,用户对数据的需求不断增长,用户范围从数据部门扩展到企业。数据治理不再能够面向数据部门。它需要成为所有企业用户的工作环境。从为用户提供服务的角度来看,该中心管理数据,同时为用户提供自我获取大数据的能力,帮助企业完成数字化转型。

5.jpg

二,如何为用户进行大数据治理?

面向用户的大数据治理实践案例

经过一段时间的探索,许多公司已经看到了对大数据治理的这种需求,大数据治理在各行业的大数据平台建设中继续受到关注。

6.jpg

以我参与的项目中的每个人为例。在大数据平台建设中,国家网格非常重视大数据治理的建设,也取得了很多成果。浦源领导了浙江省电力公司国家电网数据治理建设试点项目。

我们整合了国家电网公司现有的数据管理工具,如国家网络数据管理服务平台和浙江公司数据管理平台。基于元数据,我们实现了数据设计,生成,存储,迁移,使用和归档。数据生命周期管理,以及从源到数据中心的数据,到整个应用程序管理过程,实现以用户为中心,通过大数据治理,为用户提供更方便,更灵活,更准确的获取能力企业大数据资产。

7.jpg

浙江电力大数据治理的出发点是建立基于元数据的数据资产管理系统。从用户的角度来看,什么是白色企业数据以及哪些用户可以使用它。在定义浙江电力数据资产的过程中,我们选择了靠近业务用户的数据分类方案来整理和识别企业的运营数据资源。

8.jpg

在第一步形成的数据分类管理系统框架的基础上,梳理和整合各级各类数据资源,建立数据资产树,根据不同的数据类别制定相应的工作模板,对指标数据进行整理。详细数据。合并。

9.jpg

所有资产整理和控制的最终目标是使用户能够使用数据。我们使用L0-L1-L2的三级定义来提高数据查询的实用性。

L0:根据网格业务领域 - 业务主题 - 业务活动的结构化方法,对查询进行分类和导航。 TR L1:根据业务主题和数据源中的数据资源,根据业务主题预处理和定义数据。 TR L2:将技术元数据(如数据库表字段)转换为业务人员可以理解的业务元数据。

10.jpg

浙江电力的大数据治理,通过梳理数据,管理数据,提供数据和关联服务,形成了一套以用户为中心的大数据治理功能,最终帮助用户直接使用数据,从而实现数据治理。从以管理为中心到以业务为中心的转型。由于空间有限,对浙江电力大数据治理建设的描述不多。

面向用户的大数据治理的四个阶段

如何做面向用户的大数据治理,我们总结了四个阶段。

11.jpg

(1)第一阶段:全面整理企业信息,自动构建企业数据资产库。

在第一阶段,主要是对企业的大数据进行梳理,以便充分掌握企业大数据的情况,主要有以下三个方面。

结合企业级数据架构,清楚地了解企业的​​数据模型,数据关系和数据处理。 TR 形成统一的数据资产自动化管理,形成企业的元数据库。 TR形成企业数据资产的多个视图,使不同用户能够以不同的视角显示数据资产。

13.jpg

(2)第二阶段:建立管理流程,登陆数据标准,提高数据质量。

在第二阶段,有必要建立大数据管理和控制能力,包括从业务角度分析企业数据质量问题,形成质量控制能力,形成核心数据标准和掌握标准。对于关键问题,建立数据管理流程越来越少,控制核心问题。

在这个阶段,数据部门主要负责形成一套管理大数据的能力,同时为数据部门形成数据管理工作环境。

14.jpg

(3)第三阶段:直接为用户提供价值,为用户提供数据微服务

通过前两个阶段,企业可以建立基本的数据管理功能。在此基础上,用户需要以用户为中心,为用户提供直接访问数据的能力。第三阶段依赖于前两个阶段的能力建设。现阶段的目标是为用户提供自助服务数据服务,使用户能够自我获取和使用数据,并进一步登陆用户的使用。标准,控制质量。

15.jpg

(4)第四阶段:智能企业知识地图,为整个企业提供数据价值

最后阶段是将数据沉淀到知识中,形成企业的知识地图,并提供从“关系”的角度分析问题的能力。

人们通过商业术语(知识)搜索数据,并且知识彼此相关。例如,水果和西红柿处于上下关系(后者是前者的具体实施方案)。好的搜索将被列出。对于直接结果,您还需要显示与其相关的知识,即建立知识地图。

简而言之,知识地图是概念,属性和概念之间的关系。这种关系可以手动建立。它还可以通过自然语言处理来分析各种策略,例如策略,法规,要求,数据库注释,接口等。建立企业知识地图。因此,数据治理成为整个企业的数据工作环境,加强企业数据与知识系统之间的关系,加快企业员工数据与知识之间的转换效率,使数据的深层价值得以体现。

16.jpg

通过这四个阶段的构建,数据治理平台从数据部门的工作环境转变为整个企业的数据工作环境,以用户为中心,允许用户直接使用大数据,通过用户管理数据使用。在实现治理数据目标的同时,持续优化数据质量并最大化数据价值。

三,面向用户的自助服务大数据治理架构

自助式大数据治理架构

以用户为中心的自助服务大数据治理技术体系结构由五部分组成:数据资产管理,数据监控管理,数据准备平台,数据服务总线以及消息和流数据管理。

17.jpg

TR 整个平台分为五个核心功能:数据资产,数据准备,数据服务总线,消息&流数据管理,数据监控管理。

数据资产管理是企业数据信息统一管理的基础。数据准备平台是资产服务处理工厂。它不仅可以通过服务表单以用户可以理解的方式提供原始数据,还可以通过在线数据提供。模型设计实现了最终数据产品的发布,最终数据产品起着主导作用。

数据服务总线的值层次结构和消息&流数据管理是相同的,但数据与数据的及时性有所区别,以适应用户的不同管理和应用需求。它是数据通道和安全管理的核心内容。

数据监控管理与大数据中的数据节点管理不同。从数据管理的角度来看,它管理和控制数据结构的变化和关系的变化。它是数据连续价值的监管者。

自助大数据治理的关键技术

(1)人工智能知识地图构建

有三个主要步骤

a,基于企业元数据信息,通过自然语言处理,机器学习,模式识别等算法,以及业务规则过滤,实现知识提取;湾以本体形式表示和存储知识,自动构建资产知识地图; C。通过知识地图关系,使用智能搜索和相关查询手段为最终用户提供更准确的数据;

18.jpg

(2)细粒度敏感信息控制

数据内容安全管理包括定义,浏览和验证IT系统和数据的敏感级别划分,以及辅助安全规则在业务和技术中的应用。这些功能包括数据敏感性分级,系统敏感性分级,数据安全策略定义管理,安全策略输出,安全管理报告,数据安全检查,敏感数据角色管理,敏感数据权限管理和相关电子审批流程。

19.jpg

(3)自助大数据服务生产线

这里有4个要点:
a,对所需数据的自助查询; b,自动生成数据服务; c,及时,稳定地访问数据通道; d,保证数据安全;

通过自助数据生产线,数据用户(业务人员)大大减少对开发人员的依赖,超过80%的数据需求,可以通过自己的集成开发,最终获取数据。使用数据的任何人都可以轻松获取他们想要的数据。

20.jpg

(4)数据资产信息的多维实时显示

数据治理平台提供实时,全面的数据监控,不仅可以从运营,模型,物理资源等方面获得全面的数据资产清单,还可以对数据健康环境进行综合预警,如数据的及时性和问题数据量。 。

(5)以业务元模型为核心的数据微服务

需要以服务的形式向最终用户提供数据。传统方式不能用于提供服务,但需要通过微服务提供。每个单独的数据微服务本身都缓存提供的数据并使用其中的元素。数据功能将知识(业务模型)与技术(数据模型)相结合,为最终用户提供多种数据功能,使用户能够以各种方式使用数据。

21.jpg

最后,在构建整个大数据治理平台时需要满足一系列原则。有关详细信息,请参阅我写的《敏捷数据管理的12个技术原则》。

22.jpg

四,总结

在大数据时代,企业迫切需要建立以用户为中心的自助式大数据治理。信息疏导,数据管理与控制,用户连接,智能化是自助式大数据治理的四个主要阶段,掌握了一系列关键技术和技术原理。是实现自助式大数据治理的重要基础。

(从微信公众账号EAWorld转来)

 
 

Copyright©2014 澳门皇冠游戏 - 皇冠赌场 版权所有
   网站开发建设:中孚利信息科技有限责任公司            
   网站域名:www.tz0307.com                            
   有任何问题与建议请联络邮箱:bjccnu@188.com