《从应用视角浅谈外部数据质量评价.docx》由会员分享,可在线阅读,更多相关《从应用视角浅谈外部数据质量评价.docx(11页珍藏版)》请在第一文库网上搜索。
1、银行业外部数据来源众多,对于外部数据的选择缺少统一的量化评价标准,同时数据质量评价和业务场景的结合也并不紧密。针对外部数据的质量问题,本文提出了一种基于先验和后验维度的外部数据质量综合评价模型。通过产业链拓客挖掘模型应用实例,演示先验数据质量维度的实际衡量过程和后验维度中结合业务的自适应调整过程,揭示了外部数据质量综合评价模型在具体业务场景的普适性。一、课题研究背景2023年4月,国家印发关于构建更加完善的要素市场化配置体制机制的意见,提出数据是与资本、劳动力、土地、技术并列的生产要素,明确了数据在“数字中国”建设中的重要地位。2023年7月,中共中央国务院关于支持浦东新区高水平改革开放打造社
2、会主义现代化建设引领区的意见中提出在浦东新区建设上海数据交易所的设想;到2023年月,该设想已经得到落地实践,上海数据交易所成立当日完成数据产品挂牌20个,涉及通信、金融、交通等八大类。随着越来越多的数据进入规范化的数据市场,如何客观合理地衡量数据质量是数据资产化进程中必须要明确的问题。针对数据质量评价体系,国内外专家学者主要从四个视角展开研究,分别是产品、平台、用户以及生命周期。产品视角从数据自身的质量出发,考虑其各质量维度的表现,但容易忽视用户的使用需求;平台视角从管理角度出发,评价存储数据对平台性能的影响,但会因数据粒度过大而缺乏可靠性;用户视角从用户的实际使用需求及主观感受出发,评价数
3、据的可用程度,但缺乏客观性;生命周期视角对数据生产、存储、检索、使用等环节进行评估,评价较为全面但存在阶段孤立、难以追踪等问题。二、数据质量评价体系对于外部数据,银行需要建立一套完整的数据质量评价体系来决定是否购买并长期使用。针对目前研究中存在的一些问题,本文从先验数据质量和后验数据质量两个维度构建了一套完整的评价体系,前者主要评估数据的内在质量,而后者主要对数据的可用性及业务效益进行评估。1 .先验数据质量维度先验数据质量维度包括完整性、准确性、唯一性、规范性、及时性和一致性(如图1所示)。其中,完整性用于度量数据的缺失程度,会对数据值、记录、属性或数据模型的完整性进行分析;准确性用于度量数
4、据的准确程度,判断数据值是否出现异常或者是否符合一般的业务逻辑;唯一性用于度量数据的重复程度,判断数据表中是否存在重复的主键及记录或含义相同的属性列;规范性用于度量数据的规范程度,判断数据是否按统一格式存储,是否满足用户定义条件及规范约束等;及时性用于度量数据更新的及时程度,主要对数据的更新速度、频次、覆盖率及时效性进行评判;一致性用于度量数据的关联程度,判断同一个信息主体在不同数据集中的逻辑准确性和完整性。先验数据质量维度1完整性ZH1准确性I_唯一性J规范性及时性一致性二值完整性语法准确性主键唯一性格式规范性更新速度逻辑一致性记录完整性逻辑准确性记录唯一性指代规范性更新频次关联一致性属性完
5、整性值准确性指向唯一性缺值规范性更新覆盖率参照完整性文件完整性区间准确性属性唯一性语义规范性时效性概念完整性概念准确性可读性模型完整性模型准确性2 图1先验数据质量维度3 .后验数据质量维度后验数据质量维度包括可用性、合理性、业务效益、数据维护(如图2所示)。其中,可用性用于度量数据在使用过程中的可用程度,主要从技术角度对数据的使用情况进行分析,判断该外部数据是否能正确接入内部系统并被正确使用;合理性用于度量数据使用者的主观感受,若使用过程中发现分析结果不符合实际情况,或发现模型未达到预期效果,该外部数据的合理性就可能存在问题;业务效益用于度量数据所能带来的客观价值,例如在使用该外部数据后,拓
6、客业务成功获取多少新客户,风控业务成功挖掘出多少高风险企业等;数据维护用于度量外部数据供应商后续提供的相关服务,如数据对标、数据清洗、数据更新、数据稳定性等。4 图2后验数据质量维度5 .数据质量评价模型各维度得分量化对于六个先验数据质量维度,若没有特殊要求,可以直接计算没有相关问题的记录在整个数据集中的占比来表示对应维度的得分:Pi=1n出现相关问题的记录数,i=1,6(分别对应六个维度)九总记录数而对于四个后验数据质量维度,可以结合具体业务场景来对得分进行量化。例如,对于可用性,可综合考虑数据对标率、模型准确率等指标;对于合理性,可以根据数据使用者的主观评价,对该维度进行量化得分;对于业务
7、效益,可利用场景的客观业务指标进行评估;对于数据维护,可以综合考虑数据供应商的服务积极性、更新及时性等指标。(2)先验数据质量维度权重不同的业务场景在数据质量维度方面是各有侧重的,本文以拓客业务和风控业务为例,提出这两种业务场景下的通用先验数据质量维度权重模型。拓客业务要求完整且准确的客户信息以及所处的关联网络的信息,如客户的地址、电话号码以及客户间的股权关系等,因此这类业务需要保证数据的完整性和准确性。止匕外,客户信息更新频率较低,且其规范性对挖掘结果影响不大。因此,可以适当降低对这类业务及时性和规范性的要求。风控业务要求以最快速度得到准确的风险信息,及时进行风险评估并对抗风险。因此,这类业
8、务需要保证数据的及时性和准确性。止匕外,对于一条风险信息,不同来源的消息可能存在多条记录,其存储规范可能也并不相同。因此,可以适当降低对这类业务唯一性和规范性的要求。在不同的业务场景计算出先验数据质量后,可以根据不同的业务需求为这六个维度赋予权重。最终先验数据质量方面的得分为:6P先验=WkiPii=16,=6,其中,i=1表示六个维度各自的权重,且Pi04O(3)数据质量评价模型及流程10P后验=2tipi1i=7经过量化的后验数据质量得分为:103=4,77其中,17表示四个维度各自的权重,且Pi04结合上文的先验数据质量,最终的数据质量得分为:610P总=P先验+BP后验=f七Pi+6W
9、t出=1i=7其中+8=1且,B0,1,分别表示先验数据质量和后验数据质量所占的权重,在外部数据接入初期,由于缺少在业务方面应用的实例,可以降低在后验的权重,随着外部数据使用时间的增加以及在业务场景的应用趋于成熟,逐步提高后验的权重。三、数据质量评价体系应用案例1 .实践案例简介某地区新能源汽车产业完善,利用产业链股权关系可以有效挖掘出潜在客户,利于精准营销。课题中使用了外部数据提供的产业链数据,本文将以此为例说明数据质量评价体系的实际应用。2 .外部数据质量评价(1)先验数据质量维度评价完整性方面,该外部数据涉及股权关系表,对于企业控股比例,在135971250条记录中,值为NUn的记录有2
10、2940条,值为O的记录有2814329条,约有3 .755%的数据出现了完整性问题,故完整性评分为O.963o准确性方面,该外部数据涉及股权关系表,在626762家企业中,有397346家企业股权和大于1,1279400家企业股权和小于1,有股权信息问题的企业占总数的2.678%,故准确性评分为0.972。唯一性方面,该外部数据涉及企业基本信息表,在104386484家企业中有1339936家企业存在csf_id重复的问题,占比为1.284%,故唯一性评分为0.987o规范性方面,该外部数据涉及企业通讯信息表,在97931488条企业记录中,不规范数据条数达到4133515条,占总数的4.2
11、21%,故规范性评分为0.958。及时性方面,该外部数据涉及股权关系表,在135971250条股权记录中,有2623517条记录涉及的股权记录过期,占总数的1929%,故及时性评分为0.981o一致性方面,在本研究所涉及的外部数据中暂未发现类似的问题,故一致性评分为1。综合上述六个先验数据质量维度,对项目中遇到的质量问题进行汇总,并绘制对应的先验数据质量六维评分图(如图3所示)。规范性图3数据质量六维评分(2)后验数据质量维度评价一是可用性。产业链本质上是基于核心企业的上下游关系网络,对于核心企业的认定十分重要,因此以核心企业覆盖率作为衡量指标。本研究的外部数据产业链网络能够覆盖试点核心企业1
12、50家中109家,覆盖率达72.667%,故可用性评分为0.727o二是合理性。本研究中合理性主要是由客户经理打分评价。对于最终的输出名单,由相应区域的三名客户经理对名单的合理性打分(分数区间0,1,分数越高,结果越贴合业务实际场景),最终汇总平均映射到0,1即为最终得分。三位客户经理打分分别为0.83、0.91、0.87,故合理性评分为0.87。三是业务效益。由于本研究的目的是潜客挖掘,所以本文采用营销成功率来作为衡量指标。本研究提供187家某区域的潜客名单,经过客户经理的专业判断和实际营销,目前已经成功获客27家,营销成功率达14.439%,故业务效益评分为O.144o四是数据维护。数据维
13、护是用来衡量数据提供者的数据接入服务以及运维成本。本研究对于外部数据只需要进行简单的拼接筛选去重操作,并添加适当的实体名称以MD5加密即可,根据相关的运维评分卡,最终数据维护评分为0.85o(3)综合数据质量评价基于之前对先验以及后验各个数据质量维度的场景化评价,借助上文提出的数据质量评价模型综合评估该外部数据的数据质量。一是先验数据质量维度权重确定。拓客业务对于数据的完整性、准确性要求较高,及时性的要求一般,完整性、准确性的权重被设为15,及时性和规范性在该项目中重要性不高,其权重设为0.5,其余各维度的权重均为1(见表1)。表1先验数据质量维度权重维度完整性准确性规范性及时性一致性唯一性权
14、重1.5;i1.550.5i0.511二是后验数据质量维度权重确定。在后验数据质量维度中,本文重点考虑业务效益,对于其他维度均衡看待。业务效益权重最高,被设为2,其余维度的权重均为0.67(见表2)o表2后验数据质量维度权重维度业务效益可用性合理性数据维护权重20.670.670.66三是综合数据质量评价。根据数据质量评价模型,还需要确定Q和B的值。对于拓客业务,数据应用结果的实际成效至关重要,所以对于后验数据质量本文给予了更高的权重,B被设置为0.6,。为0.4,最终对于该外部数据的综合数据质量评价为3.4966。P先验=匕/C出=5.863P后验=蜃GPi=1919P总=P先验+”后验=3
15、.4966(4)多数据源对比本文基于该股权数据应用场景,将该数据源A与其他外部数据进行对比,分析这些数据源在该场景下各自的优劣,各数据源在先验维度及后验维度的得分为:外部数据源A:PE=P弁4+HPE心=0.4X5.863+0.6X1.919=3.4966外部数据源B:PE=aPM/+BPW聆0.4X5.951+0.6X1.683=3.390.外部数据源C:PK=aP与尹+P三步=0.4X5.983+0.61.545=3.320综合来看,外部数据源A的综合数据质量评分最高,但鉴于外部数据源B及外部数据源C的先验数据质量较优,在实际使用过程中以这两个数据源为主,将外部数据源A作为补充进行建模,可以得到效果更好的挖掘模型。四、总结与展望在“数字中国”建设的大背景下,数据资产化是大势所趋。本文就数据价值确认环节中的关键环节一一数据质量综合评价进行了先验数据质量维度和后验数据质量维度的构建,并通过面向业务表现的数据质量综合评价模型量化数据