stata计算余弦相似度.docx

上传人:lao****ou 文档编号:311442 上传时间:2023-08-17 格式:DOCX 页数:2 大小:6KB
下载 相关 举报
stata计算余弦相似度.docx_第1页
第1页 / 共2页
stata计算余弦相似度.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《stata计算余弦相似度.docx》由会员分享,可在线阅读,更多相关《stata计算余弦相似度.docx(2页珍藏版)》请在第一文库网上搜索。

1、stata计算余弦相似度余弦计算相似度度量相似度度量(SimiIarity),即计算个体间的相似程度,相似 度度量的值越小,说明个体间相似度越小,相似度的值越大 说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之 间的相似度如何,一个好的做法就是将这些文本中词语,映 射到向量空间,形成文本中文字和向量数据的映射关系,通 过计算几个或者多个不同的向量的差异的大小,来计算文本 的相似度。下面介绍一个详细成熟的向量空间余弦相似度方 法计算相似度向量空间余弦相似度(COSine Similarity)余弦相似度用向量空间中两个向量夹角的余弦值作为衡量 两个个体间差异的大小。余弦值越接

2、近1,就表明夹角越接 近0度,也就是两个向量越相似,这就叫“余弦相似性”。上图两个向量a,b的夹角很小可以说a向量和b向量有很高 的的相似性,极端情况下,a和b向量完全重合。如下图: 如上图二:可以认为a和b向量是相等的,也即a, b向量 代表的文本是完全相似的,或者说是相等的。如果a和b向 量夹角较大,或者反方向。如下图如上图三:两个向量a,b的夹角很大可以说a向量和b向量 有很底的的相似性,或者说a和b向量代表的文本基本不相 似。那么是否可以用两个向量的夹角大小的函数值来计算个 体的相似度呢?向量空间余弦相似度理论就是基于上述来计算个体相似度 的一种方法。下面做详细的推理过程分析。想到余弦公式,最基本计算方法就是初中的最简单的计算公式,计算夹角

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服