简介: 信赖许多朋友都是第一次传闻元数据办理体系这个名词,当然,从事非数据库房作业的人,很少会接触到这个体系,即使是正在从事这方面作业的朋友,或许依然对它不是很了解,那么今日我来聊一聊元数据办理体系。
依照传统的界说,元数据(Metadata)是关于数据的数据。在数据库房体系中,元数据能够协助数据库房办理员和数据库房的开发人员十分方便地找到他们所关怀的数据;元数据是描绘数据库房内数据的结构和树立办法的数据,可将其按用处的不同分为两类:技能元数据(Technical Metadata)和事务元数据(Business Metadata)。
技能元数据是存储关于数据库房体系技能细节的数据,是用于开发和办理数据库房运用的数据,它首要包含以下信息:
数据库房结构的描绘,包含库房方法、视图、维、层次结构和导出数据的界说,以及数据集市的方位和内容;
汇总用的算法,包含衡量和维界说算法,数据粒度、主题范畴、集合、汇总、预界说的查询与陈述;
由操作环境到数据库房环境的映射,包含源数据和它们的内容、数据切割、数据提取、整理、转化规矩和数据改写规矩、安全(用户授权和存取操控)。
事务元数据从事务视点描绘了数据库房中的数据,它供给了介于运用者和实践体系之间的语义层,使得不明白核算机技能的事务人员也能够“读懂”数据库房中的数据。事务元数据首要包含以下信息:运用者的事务术语所表达的数据模型、目标名和特色名;拜访数据的准则和数据的来历。
企业概念模型:这是事务元数据所应供给的重要的信息,它表明企业数据模型的高层信息、整个企业的事务概念和相互联系。以这个企业模型为根底,不明白数据库技能和SQL句子的事务人员对数据库房中的数据也能做到心中有数。
多维数据模型:这是企业概念模型的重要组成部分,它告知事务剖析人员在数据集市傍边有哪些维、维的类别、数据立方体以及数据集市中的聚合规矩。这儿的数据立方体表明某主题范畴事务现实表和维表的多维安排方法。
事务概念模型和物理数据之间的依托:以上说到的事务元数据只是表明出了数据的事务视图,这些事务视图与实践的数据库房或数据库、多维数据库中的表、字段、维、层次等之间的对应联系也应该在元数据知识库中有所表现。
与其说数据库房是软件开发项目,还不如说是体系集成项目,因为它的首要作业是把所需的数据库房东西集成在一起,完结数据的抽取、转化和加载,OLAP剖析和数据发掘等。如下图所示,它的典型结构由操作环境层、数据库房层和事务层等组成。
其间,第一层(操作环境层)是指整个企业内有关事务的OLTP体系和一些外部数据源;第二层是经过把第一层的相关数据抽取到一个中心区而组成的数据库房层;第三层是为了完结对事务数据的剖析而由各种东西组成的事务层。图中左面的部分是元数据办理,它起到了承上启下的效果,详细表现在以下几个方面:
数据库房最大的特色便是它的集成性。这一特色不只表现在它所包含的数据上,还表现在施行数据库房项意图进程傍边。一方面,从各个数据源中抽取的数据要依照必定的方法存入数据库房中,这些数据源与数据库房中数据的对应联系及转化规矩都要存储在元数据知识库中;另一方面,在数据库房项目施行进程中,直接树立数据库房往往费时、吃力,因此在实践傍边,人们或许会依照共同的数据模型,首要建造数据集市,然后在各个数据集市的根底上再建造数据库房。
不过,当数据集市数量增多时很简略构成“蜘蛛网”现象,而元数据办理是处理“蜘蛛网”的要害。假如在树立数据集市的进程中,留意了元数据办理,在集成到数据库房中时就会比较顺利;相反,假如在建造数据集市的进程中忽视了元数据办理,那么终究的集成进程就会很困难,甚至不或许完结。
终究用户不或许象数据库房体系办理员或开发人员那样了解数据库技能,因此迫切需求有一个“翻译”,能够使他们明晰地舆解数据库房中数据的含义。元数据能够完结事务模型与数据模型之间的映射,因此能够把数据以用户需求的方法“翻译”出来,然后协助终究用户了解和运用数据。
数据库房或数据集市树立好今后,运用者在运用的时分,常常会发生对数据的置疑。这些置疑往往是因为底层的数据关于用户来说是不“通明”的,运用者很天然地对成果发生置疑。而凭借元数据办理体系,终究的运用者对各个数据的来龙去脉以及数据抽取和转化的规矩都会很方便地得到,这样他们天然会对数据具有决心;当然也可快捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的根底上引进质量维,从更高的视点上来处理这一问题。
跟着信息技能的开展和企业功用的改动,企业的需求也在不断地改动。怎么结构一个跟着需求改动而滑润改动的软件体系,是软件工程范畴中的一个重要问题。传统的信息体系往往是经过文档来习惯需求改动,可是只是依托文档仍是远远不够的。成功的元数据办理体系能够把整个事务的作业流、数据流和信息流有用地办理起来,使得体系不依托特定的开发人员,然后进步体系的可扩展性
由以上几节咱们了解到元数据简直能够被称为是数据库房甚至商业智能(BI)体系的“魂灵”,正是因为元数据在整个数据库房生命周期中有着重要的位置,各个厂商的数据库房处理方案都说到了关于对元数据的办理。但惋惜的是关于元数据的办理,各个处理方案都没有明确提出一个完好的办理方法;它们供给的只是是对特定的部分元数据的办理。与元数据相关的数据库房东西大致可分为四类:
把事务体系中的数据抽取、转化、集成到数据库房中,如Ardent的DataStage、Pentaho的开源ETL产品Kettle、ETI的Extract等。这些东西仅供给了技能元数据,简直没有供给对事务元数据的支撑。
包含OLAP剖析、报表和商业智能东西等,如Cognos的PowerPlay、Business Objects的BO,以及国内厂商帆软的FineBI/FineReport等。它们经过把联系表映射成与事务相关的现实和维来支撑多维事务视图,然后对数据库房中的数据进行多维剖析。这些东西都供给了事务元数据与技能元数据相对应的语义层。
为非技能人员预备的事务建模东西,这些东西能够供给更高层的与特定事务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。
元数据一般存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些东西所用到和发生的元数据是怎么存储的。还有一类被称为元数据知识库(Metadata Repository)的东西,它们独立于其它东西,为元数据供给一个会集的存储空间。这些东西包含微软的Repository,Ardent的MetaStage和Sybase的WCC等。
目前国内的元数据办理东西大概有三类。一是像IBM、CA等公司都供给的专门东西,比方IBM收买Ascential得到的MetaStage,CA的DecisionBase都是如此;二是像DAG的MetaCenter,开源产品Pentaho Metadata,它们不依托于某项BI产品,是一种第三方的元数据办理东西;三是像普元、石竹这样的集成商也有自己的元数据办理东西:普元MetaCube、新炬网络元数据办理体系、石竹MetaOne等。
专门的元数据办理东西,对自家产品兼容较好,一旦触及跨体系办理,就不尽善尽美了。从国内的实践运用来看,DAG的MetaCenter这一东西运用最多,目前所看到的在电信、金融范畴建造的元数据办理项目基本上都是运用了这一产品。
我从互联网上查找了简直一切的元数据厂家:Pentaho开源的MetaData产品,支撑源码下载试用,能够进行集成开发;普元MetaCube下载后,装备费事,目前为止还没有调通;其他公司产品均不供给下载试用。
没有规矩不成方圆。元数据办理之所以困难,一个很重要的原因便是缺少共同的标准。在这种情况下,各公司的元数据办理处理方案各不相同。近几年,跟着元数据联盟MDC(Meta Data Coalition)的敞开信息模型OIM(Open Information Model)和OMG安排的公共库房模型CWM(Common Warehouse Model)标准的逐步完善,以及MDC和OMG安排的兼并,为数据库房厂商供给了共同的标准,然后为元数据办理铺平了路途。
关于相对简略的环境,依照通用的元数据办理标准树立一个会集式的元数据知识库。
关于比较复杂的环境,别离树立各部分的元数据办理体系,构成散布式元数据知识库,然后,经过树立标准的元数据交流格局,完结元数据的集成办理。
OMG是一个具有500多会员的世界标准化安排,闻名的CORBA标准即出自该安排。公共库房元模型(Common Warehouse Metamodel)的首要意图是在异构环境下,协助不同的数据库房东西、渠道和元数据知识库进行元数据交流。2001年3月,OMG公布了CWM 1.0标准。CWM模型既包含元数据存储,也包含元数据交流,它是根据以下三个工业标准拟定的:
MOF(元目标设备):它是OMG元模型和元数据的存储标准,供给在异构环境下对元数据知识库的拜访接口。
XMI(XML元数据交流):它能够使元数据以XML文件流的方法进行交流。
CWM为数据库房和商业智能(BI)东西之间同享元数据,拟定了一整套关于语法和语义的标准。它首要包含以下四个方面的标准:
数据地图展示是以拓扑图的方法对数据体系的各类数据实体、数据处理进程元数据进行分层次的图形化展示,并经过不同层次的图形展示粒度操控,满意开发、运维或许事务上不同运用场景的图形查询和辅佐剖析需求。
血缘剖析:血缘剖析(也称血缘剖析)是指从某一实体动身,往回追溯其处理进程,直到数据体系的数据源接口。关于不同类型的实体,其触及的转化进程或许有不同类型,如:关于底层库房实体,触及的是ETL处理进程;而关于库房汇总表,或许既触及ETL处理进程,又触及库房汇总处理进程;而关于目标,则除了上面的处理进程,还触及目标生成的处理进程。数据源接口实体由源体系供给,作为数据体系的数据输入,其它的数据实体都经过了一个或多个不同类型的处理进程。
血缘剖析正是供给了这样一种功用,能够让运用者根据需求了解不同的处理进程,每个处理进程详细做什么,需求什么样的输入,又发生什么样的输出。
影响剖析:响剖析是指从某一实体动身,寻觅依托该实体的处理进程实体或其他实体。假如需求能够选用递归方法寻觅一切的依托进程实体或其他实体。该功用支撑当某些实体发生改动或许需求修改时,评价实体影响规模。
实体相关剖析:体相关剖析是从某一实体相关的其它实体和其参加的处理进程两个视点来检查详细数据的运用情况,构成一张实体和所参加处理进程的网络,然后进一步了解该实体的重要程度。
实体差异剖析:体差异剖析是对元数据的不同实体进行检查,用图形和表格的方法展示它们之间的差异,包含姓名、特色及数据血缘和对体系其他部分影响的差异等,在数据体系中存在许多相似的实体。这些实体(如数据表)或许只要姓名上或许是在特色中存在细小的差异,甚至有部分特色姓名都相同,但处于不同的运用中。
因为各种原因,这些细小的差异直接影响了数据核算成果,数据体系需求清楚了解这些差异。本功用有助于进一步共同核算口径,评价近似实体的差异
目标共同性剖析:标共同性剖析是指用图形化的方法来剖析比较两个目标的数据流图是否共同,然后了解目标核算进程是否共同。该功用是目标血缘剖析的一种详细运用。
目标共同性剖析能够协助用户清楚地了解到即将比较的两个目标在运营剖析数据流图中各阶段所触及的数据目标和转化联系是否共同,协助用户更好地了解目标的来龙去脉,清楚了解散布在不同部分且称号相同的目标之间的差异,然后进步用户对目标值的信赖。
元数据对数据体系的数据、数据加工进程以及数据间的联系供给了精确的描绘,运用血缘剖析、影响剖析和实体相关剖析等元数据剖析功用,能够辨认与体系运用相关的技能资源,结合运用生命周期办理进程,辅佐进行数据体系的运用优化.
企业数据渠道所存储的数据和供给的各类剖析运用,触及到公司运营方面的各类灵敏信息。因此在数据体系建造进程中,须选用全面的安全办理机制和办法来保障体系的数据安全。
数据体系安全办理模块担任数据体系的数据灵敏度、客户隐私信息和各环节审计日志记载办理,对数据体系的数据拜访和功用运用进行有用监控。为完结数据体系对灵敏数据和客户隐私信息的拜访操控,进一步完结权限细化,安全办理模块应以元数据为根据,由元数据办理模块供给灵敏数据界说和客户隐私信息界说,辅佐安全办理模块完结相关安全管控操作。
数据体系项目开发的首要环节包含:需求剖析、规划、开发、测验和上线。开发办理运用能够供给相应的功用,对以上各环节的作业流程、相关资源、规矩束缚、输入输出信息等供给办理和支撑。