数据资产图谱关键资产识别研究.docx

上传人:lao****ou 文档编号:638316 上传时间:2024-03-13 格式:DOCX 页数:13 大小:137.09KB
下载 相关 举报
数据资产图谱关键资产识别研究.docx_第1页
第1页 / 共13页
数据资产图谱关键资产识别研究.docx_第2页
第2页 / 共13页
数据资产图谱关键资产识别研究.docx_第3页
第3页 / 共13页
数据资产图谱关键资产识别研究.docx_第4页
第4页 / 共13页
数据资产图谱关键资产识别研究.docx_第5页
第5页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据资产图谱关键资产识别研究.docx》由会员分享,可在线阅读,更多相关《数据资产图谱关键资产识别研究.docx(13页珍藏版)》请在第一文库网上搜索。

1、数据资产图谱关键资产识别研究中南大学唐健恒,李国统,段凯轩(I.中南大学计算机学院,湖南长沙410083;2.中南大学计算机学院,湖南长沙410083;3.中南大学计算机学院,湖南长沙410083;)周芳芳教授中文摘要:随着数据时代的到来,数据资产变得越来越重要,企业亟需寻求种有效的方法来管理和利用自己的数据资产。数据资产图谱是一种描述企业数据资产及其关联关系的点边双异质网络,可以帮助企业实现数据资产化运营,加快数据变现,方便企业智能化构建行业知识库以及快速构建数据运营能力。然而,由于数据资产的网络规模不断扩大,节点连边的数量越来越多,导致用户难以理解网络的拓扑特征,从而无法有效地挖掘、分析数

2、据资产图谱并提炼出图谱中高价值的信息。针对上述难题,提出了一种基于子图塌陷机制的可靠的数据资产图谱化简方法,用以克服现有技术中对数据资产图谱无法有效化简的问题,从而实现对企业数据资产的有效挖掘,更好地探索和利用大数据时代下数据资产的价值。英文摘要:With(headventofthedataera,dataassetshavebecomeincreasing1yimportant,andenterprisesneedtofindaneffectivewaytomanageanduti1izetheirdataassets.Dataassetgraphs,whichdescribeanenter

3、prisesdataassetsandtheirre1ationships,canfaci1itateoperations,acce1eratemonetization,andbui1dknow1edgebases.However,asthegraphsizeincreases,itbecomescha11engingforuserstounderstanditstopo1ogica1featuresandextracthigh-va1ueinformation.Thisartic1eproposesare1iab1egraphsimp1ificationmethodbasedonsubgra

4、phco11apsingtoovercomethisissue.Itenab1eseffectiveminingofenterprisedataassetsandbetteruti1izationof(heirva1ueintheeraofbigdata.关键词:数据资产:知识图谱;关键资产识别;图化简国家级大学生创新创业训练计划支持项目(7)作者简介:唐健恒(2002-),男,湖南永州人,数据科学与大数据技术,2023级,主要从事数据可视化等研究。李国统(200I-),男,河南南阳人,数据科学与大数据技术,2023级,主要从事大数据分析等研究。段凯轩(2002-),男,湖南娄底人,计算机科学

5、与技术,2023级,主要从事数据挖掘等研究。一、引言步入二H世纪,我们正处于IT(InformationTechno1ogy)时代到DT(DataTechno1ogy)时代转型的历史变革中,”数据即资产”俨然成为了这场变革中最核心的变化趋势和最广泛的思维逻辑。在这场变革中,数据不仅用于记录已发生的事情,而且还用于以惊人的效率和力量预测和驱动社会性的变革。在这个数据为王的时代,越来越多的互联网企业的关注重点不只局限于关于架构、开发语言、软件开发模式的选型,或对于网络、存储、安全设备这类硬件的创新,还包括自身的“数据资产”。2023年4月9日,中央出台了第一份关于要素市场化配置的文件中共中央、国务

6、院关于构建更加完善的要素市场化配置体制机制的意见,正式把数据列为生产要素,数据与土地一样有价值,具备登记,抵押,融资,交易等经济属性,这标志着对“数据即资产”的认同以及数据资产的定位已经站在了国家层面的高度,数据中潜藏着巨大的经济价值川或数据资产图谱是一种以数据资产为节点、以数据资产间关联关系为连边的点边双异质网络,用于描述一个或多个公司掌握的数据资产及资产间的关联关系,从而能够高效地挖掘与综合企业数据资产的价值,帮助企业实现数据资产化运营,加快数据变现,方便企业智能化构建行业知识库以及快速构建数据运营能力,从而实现数据增值化。随着现在数据资产的网络规模不断扩大,节点连边的数量越来越多,导致用

7、户愈加难以理解网络的拓扑特征,以至于无法有效地挖掘、分析数据资产图谱并提炼出图谱中高价值的信息。为了解决上述问题,现在经常采用例如图聚类的方法实现数据资产图谱化简阳,首先,通过定的指标将近似节点归并成群组,然后,根据该指标应用图聚类算法计算出所有的群组以及节点-群组的从属树型关系,最后,采用聚类节点等隐喻实现聚类树的可视化表达,并提供一定的交互方法以帮助用户进行可视分析。然而,在数据资产图中存在很多视觉上冗余的小结构,它们的拓扑特性基本一致,在数据资产图中表达的语义也相同,在真实场景中也发挥着相同的业务作用,这部分小结构在工业界和学术界上可称为结构等价子图,对于这些结构等价子图,无法有效寻找出

8、不同结构的子图类型,无法很好的进行子图分组,同时也不能有效识别子图是否同构且同质,因此,传统的图聚类化简方法无法实现有效的化简。针对上述难题,本文对数据资产图谱进行了全面的抽象化图谱建模,并基于子图塌陷机制,提出了一种可靠的数据资产图谱化简方法,用以克服现有技术中对数据资产图谱无法有效化简的问题,从而实现对企业数据资产的有效挖掘,更好地治理和利用大数据时代下数据资产的价值。二、数据资产图谱建模(一)知识图谱技术架构知识图谱在2012年5月被GoogIe正式提出,初衷是增强搜索引擎的能力,提高用户的搜索体验。目前,随着智能信息化的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领

9、域。知识图谱是结构化的语义知识库,以符号形式描述物理世界的概念及其相互关系,其基本组成单位是“实体关系实体”三元组,以及实体及其相关属性值对,实体之间通过关系相互连接,构成网状的知识结构。图1展示了知识图谱的技术架构。Know1edgeGraphConstruction/UpdateProcessDataAcquisitionInformationKnow1edgeFusionKnow1edgeAcquisitionProCeSSing图1知识图谱的技术架构三元组是知识图谱的一种通用表示方式,构建一个知识图谱G,有G=(E,R,S),其中上=%,为是知识库中的实体集合;R=M,公,他是知识库中

10、的关系集合;SqERE代表知识库中的三元组集合。(二)数据资产类型的抽象数据资产图谱以节点表示产业实体,实体对应现实世界客观存在的数据资产,例如目录、数据表、逻辑实体等。我们规定主要数据资产与图谱的核心功能高度相关,能够满足用户的主要业务需求,因此需要在数据资产图谱网络中应保持默认显示;边缘数据资产满足用户的特定需求,供用户灵活探索图谱网络,因此可以通过多种交互手段从关键数据资产处拓展显示。通过参考行业标准和数据资产图谱的功能设计需要,数据资产图谱将需要进行管理的数据资产,我们将其概括为10种,并划分为关键数据资产和边缘数据资产,如表1所示:表1数据资产实体分类类别数据资产关键数据资产逻辑实体

11、、业务属性、数据表、字段、见解边缘数据资产数据库、目录、表作业节点、见解节点、作业(三)数据资产关联关系的提取数据资产图谱以边表示各个实体之间的关联关系,关联关系对应现实世界中数据资产之间的联系,例如数据表和作业节点之间存在的数据流向关系、逻辑实体与数据表之间的逻辑模型和物理模型关系等。我们可以将数据抽象为节点与节点以及节点与边之间的关系,从而得出网络资产图谱的抽象模型。譬如目录与目录、目录与逻辑实体、逻辑实体与业务属性等关系。根据数据资产类型的定义与相关研究,我们梳理出4种数据资产关联关系:PARENT_CHI1D、1OGICA1.PHYSICA1DATA_F1OW、PK_FK这4类关联关系

12、具体可以演化为17种细分的关联关系。(四)图谱模型的构建与存储根据以上数据资产类型和关联关系的梳理,我们将其构建为一个具备10个节点、17条边的抽象数据资产图谱,用于表示数据资产图谱数据中的10种实体及其之间产生的17种关联关系,其中,节点表示数据资产,单向边表示数据资产之间的单向关联关系。我们将其进行具象化,确定其字段、表作业节点、字段作业节点等信息,最终得到数据资产图谱点边双异质的抽象建模见图2所示,并将其存储到基于图模型的数据库中。图2数据资产图谱点边双异质抽象建模三、网络中心性与关键资产理论(一)网络中心性理论在图论和网络分析中,中心性(Cemra1iIy)是判断网络中节点和连边重要性

13、的指标。在社会网络分析中,一项基本的任务就是鉴定一群人中哪些人比其他人更有影响力,从而帮助人们理解他们在网络中扮演的角色。常用的中心性有度中心性与随机游走介数中心性,下文将对度中心性与随机游走介数中心性分别进行介绍。1 .度中心性度中心性通过衡量节点的度值大小来确定节点在网络中的重要性。如果节点的度很高,那么该节点可以直接影响到的节点就越多,该节点在网络中的重要程度越高。对于一个拥有g个节点的无向图,节点i的度中心性i与其他g-1个节点的直接联系总数,数学表达式如下:CD(Ni)=EXij(ij)J=I其中CD(Ni)表示节点i的度中心性,之马力用于计算节点i与其他g-个节点j=1之间直接联系

14、的数量。采用这种方式计算度中心性时,网络规模越大,度中心性的取值就越高。为了消除网络规模变化对度中心性的影响,可以对采用以下公式进行标准化:g-12 .随机游走介数中心性随机游走介数中心性又称电流介数中心性,本质与传统的介数中心性相同,即假设信息会沿着重要路径传递,重要路径上的节点就是对于信息传播比较重要的节点。随机游走介数中心性利用随机游走算法衡量信息传递的路径,求出节点S到节点t游走的过程中经过节点i的次数,这个次数作为衡量节点i中心性大小的核心。此外,随机游走算法的求解过程与节点电流的求解过程思想一致,因此,可以使用电流模型模拟网络的传播路径,将初始边权看作电阻,运用物理上的基尔霍夫电流

15、定律求出节点电流,将节点电流大小作为最终的中心性取值。(二)关键资产理论1.簇结构与桥接结构网络资产图谱中存在丰富的图结构,其中有两类比较重要的结构,可以帮助用户挖掘资产簇以及资产簇之间的联系,定义如下:定义1:簇结构。以单个节点或多个节点为中心的集群,包括单中心簇与多中心簇两种,分别如图3(a)、(b)所示。图3簇结构示意图定义2:桥接结构。使簇之间通过单个或多个节点联系起来的结构,可以从两个层级进行分类:单/多重桥接结构(簇之间的路径数量)、单/多级桥接结构(簇之间路径的节点数量),如图4所示。2.簇中心与桥节点网络资产图谱中有两种节点在簇结构和桥接结构的连通性上起到关键作用,定义如下:定

16、义3:簇中心。在结构上比较重要的节点,即簇结构的中心节点。定义4:桥节点。在结构上比较重要的节点,即组成簇中心之间路径的节点。为了进一步挖掘簇中心与桥节点的特点,本文分别从网络资产图的结构和业务的角度上进行分析,将簇中心和桥节点进一步细分,如表2所示。表2簇中心和桥节点的分类类型具体名称含义簇中心业务影响力簇中心簇中心集合中满足表3所有规律的簇中心。节点影响力簇中心簇中心集合中度较大的节点。结构影响力簇中心簇中心集合中与多个其他簇中心距离比较近的节点。桥节点业务影响力桥节点桥节点集合中满足表4中所有规律的桥接链路上的节点。比如某桥接链路为“IP1-DoInain1-IP2”,其中IP1和IP2为不同簇的业务

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服