电网物资供应链知识图谱指南(2022征求意见稿).docx

上传人:lao****ou 文档编号:443497 上传时间:2023-11-17 格式:DOCX 页数:18 大小:81.87KB
下载 相关 举报
电网物资供应链知识图谱指南(2022征求意见稿).docx_第1页
第1页 / 共18页
电网物资供应链知识图谱指南(2022征求意见稿).docx_第2页
第2页 / 共18页
电网物资供应链知识图谱指南(2022征求意见稿).docx_第3页
第3页 / 共18页
电网物资供应链知识图谱指南(2022征求意见稿).docx_第4页
第4页 / 共18页
电网物资供应链知识图谱指南(2022征求意见稿).docx_第5页
第5页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《电网物资供应链知识图谱指南(2022征求意见稿).docx》由会员分享,可在线阅读,更多相关《电网物资供应链知识图谱指南(2022征求意见稿).docx(18页珍藏版)》请在第一文库网上搜索。

1、ICS19.020CCSK85团体标准T/CSEEXXXXYYYY代替T/XXXX电网物资供应链知识图谱指南GuideforKnowIedgeGraphsofPowerGridMateriaISupp1yChain(草案)20XXXXXX实施20XXXXXX发布中国电机工程学会发布目次-Xz-刖s41范围52规范性引用文件53术语和定义53.15电网物资powergridmateria153.2 5知识know1edge53.3 5知识图谱know1edgegraph53.4 5本体onto1ogy53.5 6实体entity63.6 6实体类型entitytype63.7 6属性attrib

2、ute63.8 6关系re1ation63.9 6事实fact64符号和缩略语64.1符号64.2缩略语65数据要求65.1 数据范围65.2 数据来源75.3 数据类型76构建流程76.1数据溯源76.2数据清洗和预处理86.3知识建模86.4知识抽取96. 5知识融合106.6 知识更新116.7 知识存储127评估过程137. 1构建要求137.2结果要求157. 3评估流程158应用模式168. 1电网物资供应链知识图谱的应用架构169. 2电网物资供应链知识图谱的应用案例16附录A(规范性)电网物资供应链知识图谱结果参数要求18本文件按照中国电机工程学会标准管理办法(暂行)的要求,依

3、据GB/T1.12023标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国电机工程学会提出。本文件由中国电机工程学会电力信息化标准专业委员会技术归口和解释。本文件起草单位:国网信息通信产业集团有限公司、福建亿榕信息技术有限公司、北京国电通网络技术有限公司、安徽继远软件有限公司。本文件主要起草人:谢可、邱镇、廖逍、赵峰、焦艳斌、朱署光、刘园园、宋立华、马海波、李刚、黄晓光、王兴涛、白景坡、卢大玮、张晓航、徐凡、苏江文、王秋琳、伍臣周、丘志强、陈曦、李深山、梁狮。本文件首次发布。本文件在执行过程中的意

4、见或建议反馈至中国电机工程学会标准执行办公室(地址:北京市西城区白广路二条1号,100761网址:http:/,邮箱:cseebz)。电网物资供应链知识图谱指南1范围本标准规定了电网物资供应链知识图谱的数据要求、构建流程、评估方法和应用模式。本标准适用于国内电网企业的物资供应链知识图谱构建及应用开发工作。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注口期的引用文件,仅该日期对应的版本适用于本文件;不注口期的引用文件,其最新版本(包括所有的修改单)适用于本文件。DDT700-2017电力物资分类与编码导则DUT1383-2014电力行业供应商信用评价规范

5、D1TT1384-2014电力行业供应商信用评价指标体系分类及代码信息技术人工智能知识图谱技术框架电力领域知识图谱应用指南3术语和定义下列术语和定义适用于本文件。电网物资powergridmateria1电网企业在生产经营过程中需要订购、运输、储备、供应和消耗的各类物品和原料。知识know1edge通过学习、实践或探索所获得的认识、判断或技能。来源:GB/T23703.2-2010,2.1知识图谱know1edgegraph以结构化形式描述的知识元素及其联系的集合。来源:信息技术人工智能知识图谱技术框架本体onto1ogy表示实体类型以及实体类型之间关系、实体类型属性类型及其之间关联的一种模型

6、。来源:信息技术人工智能知识图谱技术框架实体entity现实世界中独立存在的对象。来源:GB/T40651-2023,3.10实体类型entitytype一组具有相同属性的实体集合的抽象。来源:信息技术人工智能知识图谱技术框架属性attribute一类对象中所有成员公共的特征。来源:GB/T40216-2023,3.1.2关系re1ation实体类型和实体类型、实体类型和实体、实体和实体之间的联系。事实fact描述事物或概念某方面性质的最小知识单元,使用“主-谓-宾”形式表达,包括“实体-关系-实体”和“实体-属性-属性值”两种。4符号和缩略语4.1 符号下列符号适用于本文件。4.2 缩略语R

7、DF:资源描述框架(ReSOUrCeDeSCriPtiOnFrameWork)5数据要求1.1 数据范围1.1.1 企业内部数据电网物资供应链知识图谱构建所需企业内部数据包括但不限于:a)采购方数据,包括招投标信息、评标过程、中标情况和合同签订等;b)物流和仓储方数据,包括货物信息、运输情况、仓库条件等;T/CSEE#2023c)供应商数据,包括资质水平、运营能力、采购履约、质量管理和征信行为等。1.1.2 企业外部数据电网物资供应链知识图谱构建所需企业外部数据主要包括从外部获得的涉及采购方、物流和仓储方及供应商的数据,例如相关企业的税务、工商、司法、征信等情况,以及新闻和社会评价等。1.2

8、数据来源5. 2.1电网企业数据中台电网企业数据中台作为构建电网物资供应链知识图谱的主要数据来源,包括物资专业业务系统数据和其他关联业务系统数据。6. 2.2外部合作方数据来源还包括可提供物流和仓储方及供应商相关信息的外部合作单位,例如工商、税务、司法机关和银行等。7. 2.3互联网爬取包括与企业经营管理相关的各类公开数据,来源例如国家企业信用信息公示系统、中国裁判文书网、中国执行信息公开网、国家知识产权局官网等。5.3数据类型5.3.1结构化数据存储于关系数据库中的业务数据,例如供应商的采购履约情况等。5.3.2半结构化数据百科、日志、XM1和JSON文档等通过语义标签进行内容分层的数据,例

9、如供应商的百科页面。5.3.3非结构化数据文本、网页及视频、图像、音频等不具有明显结构组织的数据,例如供应商相关新闻。6构建流程6.1数据溯源6.1.1基本概念电网企业物资供应链相关数据分散于不同单位和不同业务系统中,需要根据电网物资供应链知识图谱的业务需求确定所需要的数据范围以针对数据的格式、规模和质量等方面要求,将相关数据通过拷贝、下载等方式进行集中,为构建工作做好数据准备。6.1.2 输入电网物资供应链数据溯源的输入包括但不限于:a)数据源,给出数据的获取方式,例如下载链接;b)数据说明,包括的主题、标题或内容简介,以及数据所涉及的范围如时间、空间跨度,以及所需的数据大小和格式。6.1.

10、3 输出构建电网物资供应链知识图谱所需要的原始数据。6.1.4 主要活动根据数据源和数据说明获取相关数据,将数据归集至统一位置,并按照数据的主题和类型归类。6.2数据清洗和预处理6. 2.1基本概念部分电网物资供应链相关数据以图片Pdf、纸质文档和网页等非结构化形式存储,存在格式不统一的问题,需要对这些文本的基本格式进行统一以方便后续处理;收集到的相关文本中可能存在大量与任务无关的内容如HTM1标记等,需要对无关内容进行清除以提升后续处理的准确性;普通文本不便于信息抽取等操作,需要对文本进行基本的分词、关键词提取等操作。7. 2.2输入电网物资供应链相关的非结构化原始文本数据。6.2.3输出基

11、本格式统一、无关内容较少且经过分词等处理的电网物资供应链相关文本。6.2.4主要活动数据清洗和预处理的主要活动包括但不限于:a)文本提取,将图片pdf、纸质文档等形式的内容转换为可直接读取的电子文档,统一存储为UTF-8编码的txt格式。b)数据清洗,包括:1)去除非文本内容,如HTM1标签、UR1链接等,图片等;2)去除停用词,需要根据涉及的物资领域调整停用词表;3)去除其他指定的内容。c)数据预处理,包括:1)分词,例如将汉字“电”和“网”组合为一个词单元“电网”,同时引入电网物资供应链领域专用词表;2)词性标注,例如将“电网”分类为“名词”;3)关键词提取,使用TFTDF等算法识别重要程

12、度较高的词语;4)命名实体识别,提取文本中用来标识机构、人物等特定类别独立存在的实体;5)属性识别,结合物资领域文本特征,采用正则表达式等方式识别数字和单位,例如“35kv”。6.3知识建模6.3.1基本概念知识建模是构建知识图谱本体的过程,电网物资供应链知识图谱建模指对该业务范畴涉及的概念、操作和规则进行统一的定义或规范化表述。6.3.2输入知识建模的输入包括但不限于:a)电网物资供应链知识图谱的应用场景和业务需求;b)经过溯源、清洗和预处理后的电网物资供应链领域结构化、半结构化和非结构化数据;c)电网领域知识图谱基础本体模型;d)行业辅助知识,包括电网物资供应链领域的专用词典、术语体系等。

13、1.1.3 输出知识建模的输出包括但不限于:a)实体类型体系,包括所有实体类型和实体类型间的上下位关系;b)实体类型的属性,并指明属性的字段类型;c)实体类型间关系,即两个实体类型间可以存在的指向性语义关联,一种关系可以用于多种实体类型之间;d)关系的属性;e)规则、公理。1.1.4 主要活动电网物资供应链知识建模过程首先根据后续使用场景和需求确定所要涵盖的知识范围,接下来通过分析结构化数据的结构信息、半结构化数据的语义标签和非结构化数据的关键词、命名实体等并结合本领域其他知识定义可复用的实体类型,定义实体类别的属性,并进一步确定实体类型间的层次结构,再接下来通过句法分析等手段获取高频出现的动

14、词帮助定义实体类型间的关系,并定义关系的属性,最后根据业务需求定义可推导出新知识的规则或公理。电网物资供应链知识建模遵循以下几项原则:a)知识表示模型应使用属性图,即由节点和边构成的有向图,节点和边均可拥有属性;b)为使内容更加规范且容易复用,应遵从电网领域基础本体模型并在其上扩展;c)宜对其他可获取的电网物资领域知识体系展开评估和复用;d)实体类型和关系的定义应该必且不存在大量重复或互斥。6.4 知识抽取6.4.1 4.1基本概念知识抽取是获取知识元素和知识单元的过程,为本体填充实例并完善本体。电网物资供应链知识抽取过程是在数据清洗和预处理结果基础上,根据不同数据类型采用不同技术手段获取实体、实体间关系、实体属性值和关系属性值,并补充完善实体类型、实体属性和关系属性。6.4.2 输入知识抽取的输入包括但不限于:a)数据,包括:D结构化数据,例如关系型数据库中存储的招标采购数据;2)半结构化数据,例如供应商百科页面;3)非结构化数据,例如经过清洗和预处理,包含关键词、命名实体和句法标注等信息的供应商企业报告。b)已有的电网物资供应链本体模型。6.4.3 输出知识抽取的输出包括但不限于:a)实体;b)实体间关系;c)实体属性;d)关系属性;e)本体模型缺失或更正的信息,包括:D实体类型;2)实体类型间关系;3)实体类型的属性;4

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服