面向学科领域的学术文献语义标注框架研究.docx

上传人:lao****ou 文档编号:113258 上传时间:2023-03-20 格式:DOCX 页数:17 大小:18.90KB
下载 相关 举报
面向学科领域的学术文献语义标注框架研究.docx_第1页
第1页 / 共17页
面向学科领域的学术文献语义标注框架研究.docx_第2页
第2页 / 共17页
面向学科领域的学术文献语义标注框架研究.docx_第3页
第3页 / 共17页
面向学科领域的学术文献语义标注框架研究.docx_第4页
第4页 / 共17页
面向学科领域的学术文献语义标注框架研究.docx_第5页
第5页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《面向学科领域的学术文献语义标注框架研究.docx》由会员分享,可在线阅读,更多相关《面向学科领域的学术文献语义标注框架研究.docx(17页珍藏版)》请在第一文库网上搜索。

1、向学科领域的学术文献语义标注框架研究海量的学术文献为科研工的研究带来了困难。语义标注是实现学术文献的快速阅读和知识的快速获取的基础,因此,本文旨在构建一个面向学科领域的学术文献语义标注框架,以规范和丰富学术文献的标注体系。本文从三个方面进行了研究:一是学术文献标注本体的构建,二是学科领域本体的构建,三是标注本体与领域本体的关联实例。本文从学术文献内容定位、概念关联、方法流程标注及引文标注几个方面给出了标注的实例。1引言20世纪80年代起,随着互联网及计算机软硬件的发展,数字出版的基础设施逐步发展成熟,数字学术出版物应运而生,而随之带来的是数字学术出版物在数量上呈现爆发式增长。2022年STM报

2、告:科技及学术期刊出版概述指出:截至2022年,CrossRef数据库包含超过7100万个D0I号,Google学术索引了 1亿1. 6亿的学术资源(包括期刊文献、书籍和灰色文献),Web of Science数据库中包含了约9000万条记录;截至2022年9月,中国学术期刊(网络版)共收录接近5000万篇中文学术文献。在这种背景下,学术交流产生了重大的变革。研究者可以从网络文献数据库中获取到大量的学术文献,这为研究者的研究工作提供了非常好的基础,但同时如此大体量的资源为学术工作的展开也带来了困难。首先,新概念的产生或者新涉足某一领域时,研究者需要学习大量的已有知识才能跟上现有的研究进展。而且

3、,研究者的时间是有限的,获取到的文献越多,分配到单篇学术文献阅读的时间则相应减少,Tenopir等1的研究就证实了这一假设研,研究者阅读文献不再是阅读全文,而是获取感兴趣的内容进行阅读:研究者通过浏览许多文章的部分来寻找、评估和利用一系列的信息2,这种阅读方式也被称作碎片化阅读。因此,第一个问题就是如何快速定位到文章的有用部分。另外,学术文献中的知识元存在大量的关联性,如引文关联、相关概念等,如何组织这些相关的知识元是研究者面临的第二个问题。因此,Renear等3提出了 “策略阅读”的概念,采用学科本体来表示及链接科学数据可以提高研究者阅读学术文献的效率,即需要利用学科本体对学术文献中的相关内

4、容进行语义标注(SemanticAnnotation) o语义标注就是将本体或元数据中的概念与资源建立联系的一个过程。其中,语义标注的核心是学科领域本体,本体最广泛的定义是“本体是概念模型的明确的规范说明” 4,它可以灵活地定义事物结构,以元数据的模式,提供概念受控词表,每个概念都包括一个明确定义的机器可理解的语义,且概念与概念之间的关联也显式地进行了定义,这样的结构能够让计算机进行推理应用。学术文献的语义标注就是借助领域本体,将学术文献中的相关内容与本体中的知识元(概念或关系)进行链接,当读者需要获取文献中知识元对应的描述时,可以借助语义本体从对应的知识库中进行获取。例如,Textpress

5、o5就是一个与本体关联的数据挖掘系统,它所包含的学术文献集依据本体中的术语分为了 33个类别,用户输入一个或多个标记或关键词集合就可以定位到学术文献中特定的句子,并可获取本体中词对应的含义,支持语义查询。预先对学术文献的结构、内容或引文信息进行标注后,读者可以通过这些标注信息快速定位到文章的部分内容实现“策略阅读”。目前,已有一些研究针对资源语义标注框架提出了标注本体的概念,标注本体旨在针对学术文献提出一个规范的本体框架,进而采用标注本体中的概念对学术文献的内容进行标注。目前已有的标注本体有PAV6、PR0V-07以及A08本体等。其中,PAV本体用于获取数字科技资源的出处、以及版本信息,用以

6、区别资源被获取、转换以及消费的过程;PROV-O是W3C小组制定的用于统一资源交换的本体;AO本体提供了用于标注生物医学领域科技文献的概念及关系。但是,现有的研究主要集中在标注本体的制定上,而如何对学术文献进行标注的研究比较少。为了实现学术文献的语义标注,首先需要明确学术文献所包含的知识元类型,在继承已有标注本体的基础上构建一个面向学术文献标注的标注本体,除了包含学术文献的一些标准元数据信息(、创建者、创建时间)以外,还包括了学术文献中的主题、发现、方法论等;其次,需要构建一个与某一学术领域相关专业术语的领域本体,包含该领域的概念及概念间的关联;最后,要将学术文献中的内容与本体中的概念对应,从

7、而可以通过标注信息实现文献的快速浏览,也可以通过URI对相应概念做进一步了解。因此,本文旨在构建学科领域学术文献语义标注框架,提出适用于学术文献语义标注的标注本体,以及针对学术文献具体内容(如引文信息、内容信息等)进行语义标注的方法。本文提出的学术文献语义标注框架也是实现文献语义检索的基础,通过语义标注,给予机器可以理解的语义,让使用者更方便更有效地利用学术文献,另外,提出的学术文献标注本体,可以被其他标注本体进行继承和扩展,具有较高的实践价值。2相关研究2.1学术文献语义标注方法相关研究学术文献标注主要有两种方法:一是社会标注,研究者在学术文献阅读过程中使用辅助阅读或管理的软件进行标注;二是

8、采用机器自动进行学术文献的标注。社会标注,即folksonomies,目前已有一些面向学术文献的标注软件,如Utopia、Mendeley,这些软件可以自动获取到文章的一些元数据信息,如题名、摘要、DOE URL等,也可以获取读者的统计数据以及读者对文章内容的标注。这类软件有利于资源的分类和组织,标签可以提升检索效率,也促进了以同一兴趣标签的社交网络生成。但是社会标注有一些缺陷,不同的表达、词的歧义、不同粒度,都为标签的共享和重用带来困难。机器学习方法进行标注可以减少人工标注的成本。Boella等9提出了一种结合语言学及机器学习的方法来进行语义标注,语言学方法主要依赖于POS标注以及句法分析,

9、再将这些元素转化为特征集,采用支持向量机来对文本进行语义标注。段宇锋等10结合朴素贝叶斯和弱监督学习方法Bootstrapping来迭代学习和标注中文物种领域的文本。Vidal等11提出了一种基于图的方法来对e-Learning领域的教学资源文档进行标注,每个相关术语链接到本体中的子图,这一扩展过程中,排除与文档主题不相关的信息,因而有一系列本体子图标注文档,最后取这些本体子图的交集作为文档的语义标注。2. 2学术文献元数据或标注本体相关研究目前,针对资源描述出现了一些元数据以及标注本体。都柏林核心元数据适用于描述和管理数字资源及馆藏资源,包括题名、创建者、主题及关键词、说明、出版者等15个广

10、义元数据。PROV本体(PROV-O)是针对不同系统不同内容生成的信息进行表示、交换或集成的本体,由W3C小组开发、管理和维护。PAV本体是用于获取网络资源的出处、以及版本信息的本体。标注本体(A0)是与标注相关的本体,包括评论、实体标注(或语义标注)、文本标注(经典标记)、笔记等用于部分或全部电子文档(文本、图片、声音、表格等)的标注信息。SWAN12本体描述了艾滋海默症领域的知识,它作为一个知识支撑系统能够有效地支持艾滋海默领域研究,并且它与SIOC本体进行了本体对齐,为不同粒度级别的科学论述的表示提供了 一个完整的模型。SPAR本体是用于描述出版领域的本体,它为语义出版和引文提供了 一套

11、可以机读的RDF元数据集,包括文档的描述,文献目录识别,引文的类型和相关内容,书目引文,文档的部分及状态,个体的角色及贡献,文献计量学数据及工作流程。SPAR本体包括下述子本体:FaBiO是用于描述出版或者潜在出版实体的本体;CiTO是一种引文本体,用来描述引文的特性及类型,并允许标注者标记引文链接和引用意图;BiRO是用于描述书目记录及参考文献的本体;C40是用于描述参考文献引文的本体,如文本内部参考文献指针、文本被引用文献引用的次数等;DoCO提供了文档结构元素的词表,如段落、节或列表等;PSO是用于描述文件出版状态或者出版过程中不同阶段的出版实体的本体,如提交、审稿中、拒稿、接收等;PR

12、O是用于描述个体出版过程中(如、编辑、评审等)的角色的本体;PWO13是用于描述出版实体在出版过程中的步骤的本体,如文章在审稿中、印刷、发表等;DEO为文件中的修饰元素提供了一个结构化的词表,如引言、讨论、致谢、参考文献列表、附录等;SCoRO是用于描述学术贡献及角色的本体;FRAPO是用于描述研究项目信息的本体,如拨款申请、资助机构、项目合等;BiDO是用于描述文献数据中数字和分类的模块本体,如期刊影响因子、H-指数、研究类型分类等;Five*是描述网络期刊文章中五种属性的本体。对于描述学术资源的数据的规范,学术文献语义标注本体可在继承现有元数据和标注本体的基础上加以扩展。2.3学术文献内容

13、提取相关研究目前,一些研究针对学术文献中的元数据元素、文献结构以及引文的提取提出了方案。Constantin等14设计了基于规则的系统PDFX,利用设计的规则和特征集进行了元数据的抽取以及标注文本片段。Kovriguina等15研究采用规则和模板匹配的方法从会议文献中提取元数据。Tkaczyk等16主要采用启发式规则及支持向量机方法实现了基本结构抽取,采用支持向量机以及简单的规则进行元数据抽取,采用支持向量机及条件随机场模型实现了引文抽取。Han等17研究了采用支持向量机进行学术文献元数据(包括题名、机构、地址、致谢、版权、引文、Email,出版时间、摘要、引言、联系方式、关键词、URL、程度

14、、出版号、页面范围等)的抽取,该方法通过预测类标签进行迭代收敛来提升分类效果,再通过查找每行的块边界来进行元数据抽取。另一个采用支持向量机的学术文献元数据抽取方法是等18提出的CRIS系统。引文内容是学术文献中引用的与之相关的资源。等19采用线性条件随机场实现了参考文献字符串的抽取。目前的研究主要是基于规则、模板和一些学习方法,但是这些方法主要是基于领域内一些手工提取的特征,为了突破这一限制,An等20探索了采用序列标注的深度神经网络模型进行引文元数据抽取。2.4相关研究综合述评目前,针对学术文献或学术资源进行语义标注的研究主要还是基于人工标注的方法,通过设计标注软件或网页,利用社会标注方法来

15、对学术文献进行标注,这类标注方法目前仅对学术文献的一些信息(如关键词、信息、题名等)作浅层标注,并未涉及针对学术文献进行语义标注。相关研究主要集中在对标注本体的设计、学术文献中一些信息(包括关键词、结构信息等)进行机器自动抽取的研究。而如何实现对学术文献的语义标注,即如何将学术文献中的内容与领域本体进行语义关联,目前的研究较少涉及,因此,本文提出了学术文献的语义标注框架。3学科领域语义标注框架整个学术文献的标注流程如图1所示,本文提出一种适合手工标注与机器自动标注的学科领域语义标注框架。整个语义标注流程如下:首先,计算机按照标注本体或者元数据对文献中对应项进行读取并预处理,抽取出对应的信息,将计算机确定的条目(如期刊信息、题名等)抽取结果存入知识库;其次,针对标注本体中的一些复杂项(如文献主题、关键词、研究问题、解决方案等),计算机将领域本体中的概念或关系与对应的抽取项进行关联,并将抽取结果提交给专家(或用户)选择标注;有文献阅读

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服