您的位置: turnitin查重官网> 管理学 >> mba >> mba排版的要求 >有关于向量向量空间模型信息检索技术查抄袭率怎么

有关于向量向量空间模型信息检索技术查抄袭率怎么

收藏本文 2024-02-15 点赞:5256 浏览:12144 作者:网友投稿原创标记本站原创

摘要: 向量空间模型是一种以查询Q和文档集合{D1,D2,…,Dn}为处理对象的算法,通过这种算法计算出这个查询的相似度SC(Q,Di)以及每篇文档Di(1≤i≤n)。为了能够实现对信息检索中的文本分类策略,采用了空间模型算法,做了实验文档测试,获得了各自的权重文档搜索结果,得到在检索过程中,向量空间模型根据文档之间的相似度,计算哪个文档最符合用户输入的关键字的结论,具有信息检索中文本相似度根据权值大小分类显示的特点。
Abstract: Vector space model is a Q query and document collection of {D1,D2,…,Dn}., as the processing object algorithm, this algorithm to calculate the similarity of the query SC(Q,Di) and each document D(1≤i≤n).In order to realize the text classification in information retrieval,the space model algorithm is adopted in this paper. The weight document search results were obtained by means of the documentation testing in the lab,In a retrieval process,the vector space model is used according to the similarity between documents to calculate which one conforms to user S input key words.It has the characteristics of text similarity display according to the weight classification in the information retrieva1.
关键词: 空间向量模型;查询;信息检索;文档相关性
Key words: space vector model;query;information retrieval;document dependence
1006-4311(2013)13-0208-02
0 引言
向量空间模型是一种以查询Q和文档集合{D,D,…,D}为处理对象的算法,通过这种算法计算出这个查询的相似度SC(Q,D)以及每篇文档D(1≤i≤n)。在文档和查询拥有的共同的此项更多的时候,那么文档和查询就更加相关。但是,通常一个概念是能够用很多不同的词项来表达的,这是因为语言文字具有着自身的不确定性。另外,语言的环境对term也有着比较大的影响,语言环境不同,尽管是相同的term也可能造成表达含义的不同,有的时候词性不同,那么它表达的含义也就不一样。而检索算法就能够通过一些措施来解决语言表达中不确定性的问题。
下面介绍几种常用的检索模型:
①向量空间模型:向量空间模型是能够计算两个向量之间的相似度的,那么如果将查询和文档都用词项空间中的向量来表示的话,那么就可以通过这种方法计算出二者的相似度。
②概率模型:每个词项在文档中出现的概率,需要基于文档集中的前提下,通过词项在相关文档中出现的可能性来计算的。要推断文档或者查询问的相关性,需要通过贝叶斯网络。而在文档中能够做出文档相关性推断的那些依据正是基于文档的证据。文档查询的相似度也就成为了推理的可信度。

1 空间模型的理论概念

最为接近查询的内容的文档就是相关的文档,在这个过程中,需要运用文档内的词项来衡量。向量空间模型的基本理念如图1。
这个模型的主要工作有两个方面:一方面是通过向量的构建,来表示词项,这里的词项来自于文档;另一方面是通过向量的构建,来表示查询的词项。任意文档向量和查询向量要是相似的话,那么就只有一种的可能,就是文档向量和查询向量的指向在大体上是一样的。

2 向量空间模型的算法

2.1 计算权重 在一篇文档中,影响词语的重要性的因素有两个。

一个是term frequency(tf):也就是说term在这个文档中出现的次数,这个数值越高说明这个词在整个文档中越重要。
另外一个是document frequency(df):就是指的包含term的文档的总数,这个数值越大就说明这个词语越不
重要。
对于每一篇文档向量,都有n个分量,并且对于整个文档集中每个不同的词项,都包含一个词条。向量中的每个分量为整个文档集中计算出来的每个词项的权重。在每篇文档中,词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率自动赋值。词项在一篇文档中出现的频率越高,则权重越大;相反,如果词项在所有文档中出现的频率越高,则权重越小。
仅当词项在文档中出现时,文档向量中词项的权重才为非零值。对于一个包含许多小文档的大文档集,文档向量可能会包含大量的零元素。
2.2 判断term之间的关系从而得到文档相关性 可以把文档看成一系列词,每个词都有一个权重,不同的词根据实际文档中的权重来影响文档相关性的打分计算。所有文档中总的词的权重看做一个向量。
所有搜索出的文档向量及查询向量放到一个N维空间中,每个词是一维。两个向量之间的夹角越小,相关性越大。所以计算夹角的余弦值作为相关性的打分,夹角越小,余弦值越大,打分越高,相关性越大,如图2所示。
相关性评价公式如下:
score(q,d)=■=■

3 引入实例测试

可以简单测试如下,查询语句有11个Term,有4篇文档搜索出来,其中各自的权重(Term Weight)见表1。
SC(Q,D2)=[(0.954×0.477)+(0.176)2]/
[■·■]≈0.825
由表1可得出结果,D2文档的相关性最高,最先返回,其次是文档D1,D3,最后D4。
4 结论
这篇论文对向量空间模型算法进行了介绍。文章的语义是使用各种词语来表达的,词语是具有不确定性的,这是这个模型所依据的一个思想。主要把任意一个文档中的词语当做一个向量的话,通过文档与查询之间的比较,就有可能会得出他们的相似度。目前这个模型主要应用在信息检索的域。
参考文献:
何飞.基于向量空间模型的文档聚类算法研究[J].湖南城市学院学报,2011(5):114-116.
唐菁.Web文本挖掘系统及聚类算法的研究[J].电信建设,2004(2):24-28.
[3]邱宇红.向量空间模型在医学文献相关性研究中的应用
[D].沈阳:中国医科大学,2006.
[4]张元馨

源于:论文 格式www.udooo.com

,赵仲孟,沈钧毅.一种基于向量空间模型的个性化搜索引擎研究[J].微电子学与计算机,2003(11).
[5]朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001(02).
[6]刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000(09).
[7]欧阳为民,蔡庆生.基于版本空间的并行概念学习[J].计算机研究与发展,1998(10).

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号