大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx

上传人:lao****ou 文档编号:231791 上传时间:2023-06-13 格式:DOCX 页数:10 大小:30.33KB
下载 相关 举报
大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx_第1页
第1页 / 共10页
大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx_第2页
第2页 / 共10页
大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx_第3页
第3页 / 共10页
大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx_第4页
第4页 / 共10页
大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx_第5页
第5页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx》由会员分享,可在线阅读,更多相关《大数据环境下基于知识图谱的用户兴趣扩展模型研究.docx(10页珍藏版)》请在第一文库网上搜索。

1、梯爬竟下基于知图谱的用户兴醐展侬研究针对大数据环境下用户兴趣数据稀疏、缺乏关联和描绘不准确等问题,利用知识图谱融合多源兴趣知识,以提高用户兴趣的全面性和准确性。方法/过程从兴趣之间的关联视角出发,进行兴趣建模、知识获取和知识融合,整合兴趣间的语义关联和社交网络关联,构建兴趣知识图谱;挖掘兴趣标签节点与上位词节点、百科标签节点、社交网络用户节点的关系,计算兴趣标签的语义关联度和社交网络关联度,生成复合关联权重,重构兴趣之间的衍生关系以实现用户的兴趣扩展。结果/结论该模型能够有效融合扩展不同类型的兴趣关联知识,相对于单一来源数据在用户兴趣的覆盖率和查准率方面均有所提升,提高了用户兴趣描绘的全面性和

2、准确性。用户兴趣挖掘是个性化推荐的关键,兴趣特征描绘的全面性和准确性直接影响推荐系统的性能,兴趣扩展是提高兴趣描绘效果的有效方法之一。大数据时代的数据规模大、来源丰富、类型多样,用户兴趣数据具有多噪声、高维度、稀疏性和多源异构等特点,传统的兴趣挖掘模型在处理大数据时存在的问题限制了其性能的发挥1。如何有效融合多源兴趣数据知识并挖掘兴趣之间的隐含关联,是用户兴趣扩展研究的难点问题。用户兴趣扩展研究借鉴信息检索技术中查询扩展方法的思想,通过增加用户兴趣的关联词来提高用户兴趣特征的描绘效果2-3。根据知识来源的不同,现有研究主要分为利用内部兴趣知识和利用社交网络知识的兴趣扩展。传统的兴趣扩展方法利用

3、推荐系统的内部知识来挖掘用户兴趣。1iUQ等4认为,在传统的兴趣挖掘模型中,潜在的用户兴趣信息并未得到充分开发,提出了一种基于协同过滤的!Expand兴趣扩展模型,把用户潜在兴趣作为用户层和项目层之间的中间层,用以提高兴趣描绘和推荐效果。BediP等5提出了一种结合上下文因素和领域本体的兴趣扩展方法,利用内容的上下文数据结合领域本体中的概念,通过扩展激活来扩展用户的兴趣。由于推荐系统内部知识资源单一,效果较为有限,部分学者开始利用社交网络知识扩展用户兴趣。MeZghaniM等认为,丰富的社交媒体数据使社交网络成为用户兴趣的重要数据源,提出了以用户为中心的方法将用户、标签和资源进行了关联,以检测

4、用户的扩展兴趣CZhangZ等7认为,传统推荐算法对推荐的准确性更为关注,提出了基于用户兴趣扩展的多样化推荐框架,采用基于社会标签信息的用户兴趣扩展策略来增强用户偏好的多样性。徐建民等网为解决微博用户兴趣提取不准确的问题,把用户个体兴趣和从社交网络挖掘的关联兴趣相结合,作为用户的扩展兴趣,提高了推荐的有效性和准确性。随着数据规模的增长,传统的兴趣扩展方法难以全面覆盖用户兴趣,社交标签存在的歧义性、多义性、攻击性以及噪声等问题也更加突出,对于兴趣扩展影响较为关键的语义关联、社交网络关联等问题尚缺乏深入的研究。近年来,知识图谱技术的出现为大数据环境下的兴趣扩展研窕提供了新的思路。知识图谱是一种有向

5、异构信息网络,提供了一种更好地组织、管理和理解大数据中兴趣关联信息的能力9,具有知识结构化、语义关联化、推理智能化等优势10,在兴趣挖掘中引入知识图谱能够把推荐系统的用户、用户兴趣、项目及其属性之间的关系进行语义关联和知识融合11。基于知识图谱的兴趣模型主要关注知识图谱中项目之间的各种关联路径,通谩节点路径的特征来挖掘知识图谱,捕获项目之间的复杂且有意义的关系,较为直观准确地为推荐提供辅助信息。GUoQ等12提出了一个端到端的波纹网络(RippIeNet)知识图谱推荐框架,通过知识图谱中的链接自动迭代扩展用户的潜在兴趣,并证明了在各个场景下的显著效果。NOiaTD等13提出了SPrank混合推

6、荐算法,利用DBPedia链接开放数据提取基于语义路径的特征,通过Web数据中的开放知识计算前N个推荐。GuptaM等14提出了一种基于元路径的非聚类推荐模型HeteroPRS,该模型融合了异构信息网络中与项目相关的元信息,在不进行用户聚类的情况下,通过考虑网络中任意的元路径来发现用户的内在兴趣。具有异构信息融合能力的知识图谱,在解决推荐的稀疏性和冷启动问题方面取得了较好的效果,为用户兴趣扩展的性能提升奠定了基础。现有基于知识图谱的推荐研究尚不够深入,大多利用开放知识图谱建立用户与项目间的路径联系,丰富的多源异构数据对于兴趣关联的影响尚未得到足够的关注和重视。本文利用知识图谱在用户兴趣挖掘方面

7、的优势,从兴趣之间的关联视角出发,引入用户、兴趣标签、语义关系以及社交网络数据等多源兴趣知识,构建融合语义关系和社交网络数据的兴趣知识图谱;通过计算兴趣标签节点间的上位词关联度和百科标签关联度挖掘兴趣间的语义关联,利用社交网络知识计算用户自标签共现度、用户自标签关联度和用户自标签热度,生成兴趣标签间的复合权重,重构兴趣之间的衍生关系,对用户的原始兴趣进行扩展。1基于知识图谱的用户兴趣扩展模型框架为了解决兴趣扩展研究中兴趣数据稀疏、缺乏语义关联和准确度不高等问题,本文设计了基于知识图谱的用户兴趣扩展模型(Know1edgeGraph-basedUserInterestExpansionMode1

8、,KG-UIEM),构建融合多源知识的兴趣知识图谱,试图通过挖掘用户标签之间的语义关联和社交网络关联进行用户兴趣扩展。模型框架如图1所示。图1基于知识图谱的用户兴趣扩展模型框架根据用户兴趣扩展的知识结构特征,模型分为兴趣知识图谱构建和用户兴趣扩展两个部分,兴趣知识图谱构建主要包括兴趣知识建模、兴趣知识获取和兴趣知识融合3个环节11,在此基础上利用兴趣间的语义关联和社交网络关联建立衍生关系,对外输出用户的扩展兴趣。2兴趣知识图谱构建2.1 兴趣知识建模在用户兴趣挖掘的场景中,知识图谱能够把涵盖丰富用户兴趣的知识进行融合与有效利用,发现和计算用户与兴趣、兴趣与兴趣的知识关联,进而挖掘用户的潜在兴趣

9、和扩展兴趣。标签是用户兴趣的一种有效表示方式,在兴趣知识图谱中将兴趣标签作为用户兴趣表达与存储的主要形式。基于标签的推荐研究中,既有用户一标签一项目、用户一项目一标签等3部图的推荐方法,也有用户一兴趣一标签一项目的4部图推荐方法15C由于标签具有噪声、歧义、冗余和不够规范等问题,导致标签在用户兴趣描绘中的应用范围和效果较为有限。把用户兴趣以标签的形式引入知识图谱,利用语义和社交网络等信息对兴趣进行优化计算和扩展,可以弥补标签的劣势,取得更佳的兴趣描绘效果。根据用户兴趣扩展的知识需求和数据类型,兴趣知识图谱中的实体主要分为3种类型:用户本体,用来存储和描述用户基本信息及属性特征;兴趣词本体,用来

10、存储和更新兴趣词概念和实体,兴趣词实体包括来源于上下位知识16和百科知识的静态兴趣词数据,以及用户兴趣计算过程中生成的动态更新兴趣词;社交网络用户本体,用来存储和关联用户相关的社交网络信息,主要包括用户信息、自定义兴趣标签、用户间的关注关系等。根据兴趣挖掘模型中实体关系的不同创建方式,实体关系分为原生关系和衍生关系两类。原生关系,即利用原始数据直接产生的实体关系,这些关系作为用户兴趣挖掘的基础,包括兴趣词一概念之间的上位词关系、兴趣词一百科标签之间的百科标签关系、社交网络用户一用户标签的自标签关系、社交网络用户之间的关注关系等。衍生关系,即利用知识图谱资源和原生关系等计算出的复合关联关系。2.

11、2 兴趣知识获取兴趣词的语义知识。对用户的兴趣进行标签化处理和表示之后,利用兴趣词之间的上下位知识和百科标签知识构建语义知识网络,能够建立兴趣词之间的语义关联。上下位关系又称等级关系或层级关系,表示概念或术语之间的“is-a”关联17。上下位知识对实体进行了结构化的组织,具有较权威上下位关系的中文知识库有大词林(BigCiIin)、CN-Probase.HowNet,同义词林等。在线百科是语义知识的另一重要来源,百科词条通常对应于一定的实体或概念,是由网络用户协同编辑形成的在线知识库18。百科词条知识相对于传统的中文知识库,在开放性、时效性和词条的丰富程度上具有较大优势。在线百科的词条标签信息

12、能够作为兴趣词的分类依据,建立兴趣词之间的语义连接。社交网络知识。在线社交网络提供了信息交流环境,依靠社交网络用户发布的内容以及用户间关系构成的社交网络知识库,是涵盖真实世界用户兴趣的重要数据源。目前关于社交网络兴趣的研究,较多关注以用户为中心的兴趣挖掘,而忽视了社交网络本身也建立了兴趣之间的关联;可以从兴趣共现、用户关注关系中挖掘出兴趣词之间的社交关联,为兴趣挖掘提供真实、丰富的社交网络兴趣知识库。2.3 兴趣知识融合大数据环境下,用户的兴趣偏好具有多元化特征,兴趣知识需要具有一定的广度、深度和动态性,仅依靠单一类型的知识来源,难以达到理想效果。构建融合多源数据的兴趣知识图谱,能够把具有相对

13、权威的兴趣词上下位知识、开放多元的百科标签知识以及与用户相关的社交网络知识进行重新组织,利用原生图数据库进行数据存储和对外查询,为用户扩展兴趣的挖掘提供有力的平耋和数据支撑。本文对用户的属性特征和兴趣特征等进行标签化处理,在用户兴趣知识图谱中采用实体,关系,实体和实体,属性,属性值的三元组形式进行描述和表示。将属性特征进行标签化处理,建立用户与属性标签节点之间的关联关系;将用户的兴趣特征转化为兴趣标签词实体,建立用户实体与兴趣特征之间的关联,从不同角度为用户兴趣分析提供数据支撑。3基于知识图谱的用户兴趣扩展兴趣知识图谱把用户、兴趣标签、上位词、百科标签和社交网络等多源数据进行了数据整合和知识关

14、联,构成了融合多源信息的兴趣知识库。兴趣知识图谱是一个有向图KGIntereSt=(E,R),其中E=e1,e2,e3,.,en表示图中各类实体(节点)的集合,共包含E种不同的实体;R=r1,2,r3,.,rn表示图中各类关系(有向边)的集合,共包含R种不同的关系。3.1 语义关联兴趣扩展兴趣标签之间存在着语义关联,利用多标签间的语义关系能够更加精确地表征兴趣特征,缓解原始用户一标签矩阵高维稀疏的问题19。在兴趣知识图谱中,兴趣标签节点与上位词节点和百科标签节点的关系体现了标签之间的语义关系,本文用这些关联生成兴趣标签的语义关联度。定义1:上位词关联度。对于给定的兴趣标签节点EWj和EWk,上

15、位词关联度Rdh指两个节点与其上位词节点关联强度的一种度量。对于具有共同上位词关联的两个兴趣标签节点Ewj和Ewk,存在经过上位词节点Eho的关联路径PH=EwjHyperEhoHyperEwk,上位词关联度Rdh的计算公式为:Rdh(Ewj,Ewk)=OH(Ewj)0H(Ewk)OH(Ewj)UOH(Ewk)(1)其中OH(EWj)表示与兴趣标签节点Ewj关联的上位词节点集合,OH(Ewk)表示与兴趣标签节点EWk关联的上位词节点集合。OH(Ewj)0H(Ewk)表示与两个节点共同关联的上位词节点数量,OH(Ewj)UOH(Ewk)表示与两个节点关联的上位词节点的总数。定义2:百科标签关联度

16、。对于给定的兴趣标签节点EWj和EWk,百科标签关联度RdW指两个节点与百科标签节点关联强度的一种度量。对于具有百科标签关联的两个兴趣节点Ewj和Ewk,存在经过百科标签节点Ebw的关联路径PW=EwjWikiTagEbwWikiTagEwk,百科标签关联度Rdw的计算公式为:Rdw(Ewj,Ewk)=OW(Ewj)0W(Ewk)OW(Ewj)UOW(Ewk)(2)其中OW(Ewj)表示与兴趣标签节点EWj关联的百科标签节点集合,OW(Ewk)表示与兴趣标签节点EWk关联的百科标签节点集合COW(Ewj)0W(EWk)表示与两个节点共同关联的百科标签节点数量,OW(EWj)UOW(Ewk)表示与两个节点关联的百科标签节点的总数。定义3:语义关联度。对于给定的兴趣标签节点EWj和EWk,语义关联度指两个节点通过语义知识建

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服