《面向知识图谱构建的电子战领域语料库建设.docx》由会员分享,可在线阅读,更多相关《面向知识图谱构建的电子战领域语料库建设.docx(17页珍藏版)》请在第一文库网上搜索。
1、面向知识图谱构建的电子战领域语料库建设目录编者按1语料库简介2引言2?知识图谱基本概念31. 1.知识图谱介绍31.2. 知识图谱重要特点31.3. 知识图谱的作用41.4. 知识图谱在人工智能中的应用4?语料库是什么意思42. 1.分类52. 2.语料库有三点特征5?总体框架5?电子战领域本体构建7?本体构建方法步骤7?电子战领域本体内容8?基于schema的电子战领域语料标注9?标注体系设计10?电子战领域关系schema构建10?标注标签11?两阶段自动标注模型11?命名实体识别模型12?关系模式匹配12?语料库实现及质量分析13?语料库信息统计13?语料库应用效果15?结束语17编者按
2、本文提出了一种基于领域本体的电子战领域语料库构建方法。试验结果表明,该方法可较好完成语料库构建工作,有助于电子战领域的知识体系梳理及语料库建设,可为电子战领域知识图谱构建提供支撑。语料库简介语料库构建是领域知识图谱构建的基础步骤和关键环节,高质量的语料能够提高知识抽取和知识推理等任务的准确率和置信度。目前,电子战领域尚无公开的语料库,这也成为了电子战领域知识图谱构建的难题之一。鉴于此,提出了一种基于领域本体的电子战领域语料库构建方法。试验结果表明,该方法可较好完成语料库构建工作,有助于电子战领域的知识体系梳理及语料库建设,可为电子战领域知识图谱构建提供支撑。引言电子战领域指涉及使用电磁能、定向
3、能和水声能等技术手段,确定、扰乱、削弱、破坏和摧毁敌方电子信息系统与电子设备,确保己方电子信息系统与电子设备的正常使用而采取的各种战术技术措施和行动的专业领域。电子战作为现代战争重要的作战手段,其数据资源规模大且专业性强,而领域知识图谱构建能够充分利用数据资源,为电子战领域情报处理和频谱管控等提供支撑。面向知识图谱构建的电子战领域语料库指内容涉及电子战领域并且可提供知识图谱构建所需基础语料的语料库,包括经过处理的未标注和标注语料。高质量语料库是知识图谱构建与运用的关键和基础,目前通用领域的语料库构建较成熟,学术界和工业界具备的大规模标注数据可支撑知识抽取和知识推理等知识图谱构建技术的研究与应用
4、。但随着专业领域对挖掘数据深层关系的需求不断增强,通用型知识图谱己无法支撑专业领域智能应用,因此构建垂直领域知识图谱成为各专业领域的迫切需求。参考军事领域语料库构建方法,有助于对专业性较强的电子战领域语料库建设进行研究。周彬彬等针对军事语料实体,提出了一套统一的军事词性标记规范和军事语料标注规范,设计了一种基于军语词典的军事语料实体特征提取框架;冯鸾鸾等以维基百科中军事领域的新技术为基点采集语料,制定了一系列军事技术文本的标注规范,并通过人工标注方式构建了面向国防科技领域的技术和术语语料库。以上研究虽然表明利用自动标注方法构建高质量大规模语料库是可行的,但由于不同领域的语料库和语料库构建方法具
5、有其领域特性,使得这些方法难以移植到电子战领域知识图谱构建中,因此需构建电子战领域语料库以进行面向知识图谱构建与研究。针对现有研究并面向知识图谱构建的语料库建设需求,本文提出了一种基于领域本体的电子战领域语料库构建方法(本文方法)O设计了电子战领域知识本体,明确了领域知识的边界和层次结构;设计了基于领域词典的电子战领域源生数据获取方法,将从互联网爬取的电子战领域新闻、百科词条和学术论文等非结构化文档作为条令条例、理论著作和战例想定等现有文本资料的补充;根据领域本体设计标注体系,通过标注少量高质量语料形成种子语料,并通过自动标注算法迭代获取更多的标注语料,实现了电子战领域语料库建设以及语料库统计
6、分析。知识图谱基本概念知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。1.1. 知识图谱介绍通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。1.2. 知识图谱重要特点用户搜索次数越多,范围越广,搜索引擎就能获取越多信息和内容。赋予字串新的意义,而不只是单纯的字串。融合
7、了所有的学科,以便于用户搜索时的连贯性。为用户找出更加准确的信息,作出更全面的总结并提供更有深度相关的信息。把与关键词相关的知识体系系统化地展示给用户。用户只需登录Goog1e旗下60多种在线服务中的一种就能获取在其他服务上保留的信息和数据。Goog1e从整个互联网汲取有用的信息让用户能够获得更多相关的公共资源。1.3. 知识图谱的作用在辅助语言理解方面起的作用有:实体消歧:对文中提到的多义词进行精准判断,如上文提到的苹果案例。指代消解:对文中的代词做出解释,如他和它。图谱可以结合各类领域的知识,打造领域型的知识图谱,在大数据分析方面,工业落地主要应用如下:推荐:知识图谱中包含了丰富的关联性,
8、可以为推荐系统提供部分信息来源;比如常见的推荐有电影推荐、音乐推荐。加入图谱推荐的好处主要是可解释性强,能基于设定好的推荐路径进行精准推送。风控:图结构能非常好的与SNA(社交网络分析)理论相结合,对团伙欺诈这类型的风险能起到非常好的挖掘作用;如洗钱行为可以综合多笔交易、企业信息等看是否出现资金汇集等。图的优势在于能跨多度计算,能挖出埋藏较深度的风险关系,比起传统的侦察手段对团伙作案的风险能摸查得更全面。1.4. 知识图谱在人工智能中的应用人类的生产力可以分为知识生产力,劳动生产力。人工智能可以从两个方面加速生产力的提升。人工智能又可以分为感知型智能,认知性智能,行为智能。一般来讲,计算机视觉
9、识别,语音识别等识别问题都可以归结到感知性智能中。认知性智能包含自然语言理解(N1U),自然语言生成(N1G),知识推理(reasoning)等领域。行为智能主要聚焦在智能体的行动上,一般指的是具有感知和认知能力的机器人的行为。语料库是什么意思语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。2.1.分类语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:异质的(HeterOgeneOUs):没有特定的语料收
10、集原则,广泛收集并原样存储各种语料;同质的(HOmOgeneOUs):只收集同一类内容的语料;系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;专用的(SPeCia1iZed):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(MonO1ingUa1)、双语的(Bi1ingUa1)和多语的(MUIti1ingUa1)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、
11、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OPenSUbtit1eS的多语言平行语料数据(OpenSubtit1esCorpus)圣经双语语料库(Bib1ebi1ingua1corpus)、Shortmessagesservice(SMS)CorPUS(短消息服务(SMS)语料)等。2. 2.语料库有三点特征1 .语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;2
12、.语料库是承载语言知识的基础资源,但并不等于语言知识;3 .真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库?.总体框架语料库建设包括以下2个步骤:1)源生数据建设:包括原始文本资料获取和原始语料生成;数据资产建设:包括种子语料人工标注和联合语料自动标注。需说明的是,原始文本资料来源于互联网中电子战相关的学术论文、百科词条和新闻等公开资源,而领域本体构建用于指导数据资产建设。语料库构建方法总体框架如图1所示。图1语料库构建方法总体框架语料质量是语料库构建的关键,低质量语料会对下游任务产生负面影响,因此从
13、采集到形成数据资产的整个生命周期中均需保证数据具有较高质量。为确保数据在每个步骤中的可用性、一致性、完整性、合规性和安全性,需对数据的基本信息、状态和关联关系等进行管理。数据资源管理框架如图2所示。索引数据基础数据网页资源文本资料原始语料标注语料词典库通用词典领域词典预训练语言模型库通用模型领域模型本体库通用词典领域词典数据元通用数据元领域数据元应用数据兀源生数据一1数据资产二(C1数据产品.权威数据:条令条例、军语和国军标非权威数据:理论著作、百科词条、战例想定和相关新闻标注体系:领歹SChema、标注标签和标注规范标注语料:BIU标注语料、SPo标注语料和葩他标注语料一知识图谱:电不战领域
14、知识图谱图2数据资源管理框架?.电子战领域本体构建电子战领域本体是对电子战领域概念的一种描述,是该领域内公认的概念集合。由于知识具有显著的领域特性,因此领域本体可更合理而有效地进行知识表示。将本体方法融入语料库构建过程,建立电子战领域知识体系,明确语料库包含语料的边界、分类和层次结构,形成统一的电子战领域语料标注规范,从而确保语料库建设的一致性和规范性。?.1.本体构建方法步骤目前,本体构建尚无统一标准,现有本体构建方法依据涉及的领域和具体工程而不同。经典的本体构建方法包括数据建模集成定义(IDEF5)法、七步法、多伦多虚拟企业(ToVE)法、骨架法、MethOnto1ogy法和五步循环法等。
15、本文参考七步法的原则进行本体设计,并根据实际需求适当简化。图3给出了采用统一建模语言(UM1)描述的电子战领域本体构建步骤。(明确电子战领域范围)(分析军事、电磁和彳乍战试验领魅体)W:C整理确定电字战领域术语3(电子战领技概念设计)(电子战领成关系设计)(概念及关系的属性设计)图3电子战领域本体构建步骤?.2.电子战领域本体内容电子战领域本体包括领域内的概念、关系、属性、公理和函数。由于原始资料主要来源于互联网新闻,语料中蕴含的知识偏向于领域实体间的相互作用,因此本文根据性质和功能对电子战领域概念和关系进行了分类。图4给出了概念关系分类示例。(a)概念分类(b)关系分类图4概念关系分类示例?.基于SChema的电子战领域语料标注电子战领域源生数据主要包括条令条例、理论著作和战例想定等内部资料,以及互联网上的专业文献、百科词条和相关新闻等,语料来源复杂且质量难以保证,为了构建电子战领域语料库,需设计一种既能减少人工标注又能保证标注精度的语料库构建方法。图5给