试议词典面向Web检索作个性化词典和实现网-turnitin论文查重

（1. 长江师范学院数学与计算机学院，重庆 408100；

2. 中冶赛迪技术股份有限公司）

摘要：为了更好地向用户提供个性化的Web检索怎么写作，实现了一种改进的个性化词典的生成算法——IGAUPD，用于在用户浏览的大量兴趣网页中挖掘出真正符合用户兴趣的词语，以此缩小传统词库的容量，使得在用户兴趣建模时，能更快更准确地形成兴趣网页的特征描述，并更好地支持个性化检索。IGAUPD算法采用新的词权计算公式IWTUPD，以更好地描述词语在网页集中的重要性，有效排除频繁词。最后，用实验验证了由IGAUPD算法生成的个性化词典的优势。
关键词：个性化词典；频繁词；用户兴趣建模；二级向量； Web检索怎么写作
1006-8228（2012）11-01-03
Research and implementation of personalization dictionary for web retrieval service
Li Lipei1， Luo Ying2
（1. College of Mathematics and Computer Science， Yangtze Normal University， Chongqing 408100， China；

2. CISDI）

Abstract： For the sake of providing better personalizing service of web information retrieval for users， an improved generating algorithm of user personalizing dictionary has been accomplished in the paper， which can be used for mining the terms which can tally with interests of users truly from a mass of web pages that browsed by users， resulting in narrowing the size of traditional dictionary， helping to generate the feature description of interested web pages more quickly and accurately， and supporting the personality retrieval better. The importance of words in the web pages is better described and frequently-used words are excluded more efficiently in the IGAUPD， in which a new formula about the weight of words named IWTUPD has been used. Finally， some experiments he proved the advantages of the user personalization dictionary created by IGAUPD.
Key words： user personalization dictionary； frequently-used word； double vector； user interests modeling； the service of web information retrieval
0 引言
近十几年来，因特网上的各种信息呈指数级的速度增长，使得互联网用户想要快速找到其真正所需要的信息或资料越来越困难。因此需要针对每个用户提供个性化的检索怎么写作，以解决因特网中信息的多样化与用户需求的专一化之间的矛盾。
提供个性化的Web检索怎么写作，首先需要掌握每个用户特有的兴趣，即对用户的兴趣进行建模，形成针对某特定用户的兴趣描述文件。网页文本的分词及特征提取在大多数用户兴趣建模系统中占有重要地位，如文献采用基于遗传算法的BP神经网络系统学习用户兴趣，其学习模型包括三个模块：页面处理、兴趣提取和兴趣更新，其中页面处理模块

摘自：毕业论文翻译www.udooo.com

就包括了中文分词。文献[3]提出一种基于主成份支持向量机的网页自动分类方法进行建模，首先还是对网页进行分词及特征提取。文献[4，5，9]则着重网页文本的特征描述。文献[5]对权重公式和向量空间模型同时进行改进，以更好的方式描述网页文本，这个过程中自然也包括网页文本分词。文献[9]采用基于词性的方法提取网页中的特征词并用DF与TF相结合的公式计算词权。文献[4]通过“打碎”网页文档，提取出“精细化”、“条目化”的网页特征，在提取特征词的过程中，应用了特征词典，却没有对特征词典作进一步的阐述。文献[2-5，9]在网页特征提取的过程中均需使用词典，只有文献[4]提出特征词典的概念。若借助传统的全局词典（词量通常在10万以上）提取网页内容的特征，会使提取网页特征的时间开销较大，并且由于传统词典里大量的词其实对于用户兴趣建模没有直接作用，且很多词是频繁词，如果这些词进入了网页特征向量里反而会形成噪声，影响网页内容的挖掘效果。因此有必要像文献[4]一样建立特征词典。本文提出一种针对用户的兴趣特征建立的大致符合用户兴趣的个性化词典，该词典包含的词量较少，绝大部分词都能反映用户的兴趣，并且尽量排除频繁词，避免在提取网页特征时形成噪声数据。
本文提出的个性化词典是在传统词典的基础上，以用户的浏览历史网页集合为依据，形成每个用户独立的词典空间，该词典空间分为两级，即关键词词典和扩展词词典，分别用于描述用户的核心兴趣和兴趣偏好，以支持用二级向量描述的用户模型[7]。1 个性化词典的定义
个性化词典UPD（User Personalization Dictionary）由关键词词典（KeyDict）和扩展词词典（ExDict）两级构成，位于两级词典中的词分别定义为关键词和扩展词。
每一级词典中包含n个（n由人为设定）由词和词权构成的二元组，这些词表示用户特有的信息需求特征。例如：
某用户的关键词词典为：[（笔记本，0.03211385）；（股票，0.02812798）；（苹果，0.02620156）；（内存，0.02032729）；（篮球，0.01815624）；（运动员，0.01528336）；（李宁，0.011354642）；……（用户，0.003213658）；……]
以上的关键词词典表示，从该用户浏览的网页提取的词语中，这部分词最能够体现用户的浏览兴趣，即用户关键词，但它们在用户兴趣中的重要性不同，词的权值越大，表示在用户兴趣中的重要性越大。
我们用类似的方法表示扩展词词典，扩展词的重要性小于关键词，在用户建模中，扩展词用于描述用户在核心兴趣点上的兴趣偏好。
特定用户的UPD能够充分表达用户对信息需求的倾向性，同时对基于二级向量的用户兴趣模型提供支持，是一种符合用户兴趣的私有词典，在词典设计上主要考虑如下原则：
⑴ 网页文档集合中，某词出现的频度越高，该词对用户兴趣特征的描述能力越强；
⑵ 网页文档集合中，包含某词的网页数在达到某阈值前，数量越多，该词对用户兴趣特征的描述能力越强，而超过某阈值后，数量越多则该词对用户兴趣特征的描述能力越弱；
⑶ 对于一些网页中比较常用的，没有检索价值的词，本文称之为频繁词，如：评论、版权、文章等。经过大量的统计发现，频繁词通常分布在网页集合的大多数文档中，而在单张网页中出现的次数较少（一般为1-2次），在词典中应该被过滤掉，以免对用户的个人描述带来噪音。

2 个性化词典的实现

个性化词典是在通用词库的基础上，通过对用户所浏览的网页进行分词、词权计算、排序等过程的处理，最终形成每个用户独立的词典空间，其中最重要的过程是词权的计算。

2.1 词权计算公式

文献中提出了一种基于传统TF-IDF公式的个性化词典词权计算公式WTUPD（Weight of Term in the User Personalization Dictionary），如公式⑴所示。
⑴
公式⑴中，S为网页文档集合，T为词空间，W（t，S）为词t在S中的权重，tf（t，S）为词t在S中的词频，N为S包含的文档总数，nt为S中的文档出现t的数量，分母为归一化因子。文献认为：个性化词典中的词的权值与该词在样本集中的频度成正比，而与包含该词的样本分布成反比，即在样本集中，包含该词的样本越多，该词的重要性越大，权值越大，反之重要性越小，权值越小。按照这种思路理解，包含于大量样本中的频繁词可能就会具有较高的权

摘自：本科毕业论文致谢词www.udooo.com

值，但事实上频繁词应该具有更低的权值。
针对以上问题，本文认为个性化词典中词的权值与包含该词的样本数的关系应是随样本数的增加先递增，到达一个阈值后再递减。因为如果某个词t只包含于少数的几个样本中，那么t难以表达用户的主要兴趣，只有当t包含于大多数的样本中时，t才能反映用户的主要兴趣，但是当T出现在绝大多数样本中后，t可能就是一个频繁词，从而失去提取价值。因此本文在WTUPD的基础上进行改进，得到改进后的个性化词典词权计算公式IWTUPD（Improved Weight of Term in the User Personalization Dictionary），如公式⑵所示。
⑵
公式⑵中最后的Evenness（t）依然为均匀度的因子，即词t在样本集中的标准差。而P为包含词t的样本数阈值，本文认为超过阈值P，则包含词t的样本数对词权的重要性就逐渐降低，因此在公式⑵中引入了二次曲线，P的表达式如下：
P=（2/3）*N⑶
另外，当样本值超过阈值P后，重要性的下降速度要快于达到阈值P之前重要性的上升速度，所以又添加了第二项即nt-P用来调节重要性的下降速度。因此IWTUPD公式体现出样本集中的词对于样本集的重要性是随着该词在样本集中出现的频度增加而增加，但是又受到包含该词的样本数的制约（即当包含该词的样本数低于阈值P时，随着样本数的增加，该词的重要性递增；当包含该词的样本数超过阈值P时，随着样本数的增加，该词的重要性则递减）。

2.2 个性化词典的生成算法

本文在文献提出的个性化词典生成算法GAUPD（Generating Algorithm of User Personalization Dictionary）的基础上进行改进，提出了改进后的个性化词典生成算法IGAUPD（Improved Generating Algorithm of User Personalization Dictionary），以下是该算法的步骤。
首先根据通用词库对用户所浏览的网页文本进行提词，获得基本词空间BTS（Based Term Space），同时利用IWTUPD公式计算BTS中的每个词的权值，并将BTS中的词按照词权进行排序，经过这一步，重要的词语会排序靠前，而频繁词会排序靠后。
然后按从大到小的顺序在BTS中选择一定比例的词作为候选词CT（Candidate Term）。本文建议对于兴趣点较集中的用户选择前40%的词，而兴趣点较分散（核心兴趣点5个以上）的用户选择前50%的词，由于经过第一步排序后，频繁词基本被排到了后面，那么选择出来的词中包含频繁词的可能性就比较小。
接着从CT中筛选频繁词，根据前面对频繁词的描述，我们采用如下的函数筛选频繁词。
filter（t）={t|t∈W（3N/4）∩E（tf（t，S）/n）≤2}⑷公式⑷中t∈W（3N/4）表示词t出现在占用户浏览的总网页集中3/4的网页中，E（tf（t，S）/n）≤2表示词t在网页中出现次数的均值不大于2。此函数找出所有在3/4及更大比例的网页中出现且平均出现次数不大于2次的词，这些词将被视为没有意义的频繁词而从CT中去除。
最后剩下的所有CT构成个性化词典，选取个性化词典中的前50%作为关键词典，其余作为扩展词典。

3 实验及分析

本文使用的实验数据来自于搜狗网提供的搜狐新闻网页，覆盖财经（bu），体育（sp），汽车（au），军事（mi），IT（it）共5个类，每个类300张网页，共1500张网页，然后从这5个类中分别抽取一定数量的网页作为用户的兴趣网页，组成测试集。本文使用的测试集共4个，测试集包含的兴趣点别和网页数量如表1所示。
表1实验数据集
[[＼&it＼&au＼&bu＼&sp＼&mi＼&T1＼&＼&65＼&60＼&60＼&＼&T2＼&50＼&50＼&40＼&65＼&＼&T3＼&50＼&55＼&60＼&60＼&55＼&T4＼&35＼&90＼&40＼&80＼&45＼&]]
表1中，T1包含3个兴趣点共185张网页，T2包含4个兴趣点共205张网页，T3包含5个兴趣点共280张网页，T4包含5个兴趣点共290张网页。其中T1、T2和T3中各兴趣点的网页数差距不大，而T4中各兴趣点的网页数差距较大。从T1到T4，兴趣点的数目逐渐增多，网页总数也逐渐增多，而T3与T4的区别主要是T3中各兴趣点分布较均匀，而T4中各兴趣点分布不均匀。
首先，采用文献[6]提出的用户兴趣建模算法测试应用IGAUPD算法生成用户个性化词典后对用户兴趣建模的影响，用户兴趣建模主要使用个性化词典中的关键词。为了对比说明IGAUPD的效果，我们首先分别使用IGAUPD和GAUPD生成用户个性化词典，然后根据不同的个性化词典分别对4个测试集提取网页特征并进行10次用户兴趣建模，比较两者之间的时间差异和建模准确性差异，实验结果如表2所示。
表2用户兴趣建模的实验结果对比
[[＼&T1＼&T2＼&T3＼&T4＼&＼&AT（m）＼&AA＼&AT＼&AA＼&AT＼&AA＼&AT＼&AA＼&IGAUPD＼&13.6＼&89.6%＼&16.2＼&86.5%＼&18.3＼&84.3%＼&20.4＼&79.5%＼&GAUPD＼&13.9＼&87.8%＼&16.1＼&83.4%＼&18.5＼&79.7%＼&20.1＼&72.3%＼&提高量＼&0.3＼&1.8%＼&-0.1＼&3.1%＼&0.2＼&4.6%＼&-0.3＼&7.2%＼&]]
在表2中，AT（Average Time）表

源于：论文写作格式www.udooo.com

示十次建模的平均花费时间，单位是分钟（m），AA（Average Accuracy）表示十次建模的平均准确度，提高量表示在AT和AA这两类数据上，IGAUPD相对于GAUPD的差距。从表2可以看出，在平均花费时间上，IGAUPD和GAUPD相差不大；但是在平均准确度上，基于IGAUPD生成的个性化词典进行建模的结果明显优于基于GAUPD生成的个性化词典进行建模的结果，可以看出，随着类的数目和网页总数的逐渐增多，两者的平均准确度都呈下降趋势，但是两者之间的准确度差距越来越大，这说明使用GAUPD后的建模准确度下降比IGAUPD更快。特别是当兴趣点的分布不均匀时，即在T4测试集上，使用IGAUPD后的建模准确度与使用GAUPD后的建模准确度差距达到了7.2%，这说明当某用户的各兴趣点所包含的兴趣网页数量差距较大时，使用IGAUPD后再进行兴趣建模，能更加准确地描述用户的兴趣。
其次，采用文献[7]提出的个性化检索系统来测试应用IGAUPD算法生成用户个性化词典后对Web检索的影响，个性化检索主要利用个性化词典中的扩展词。为了对比说明IGAUPD的效果，我们先分别使用IGAUPD和GAUPD生成用户的个性化词典，然后对T2测试集进行一次用户兴趣建模，并利用户兴趣模型中的所有关键词在google上进行个性化检索测试，将每个关键词检索到的前10页结果作为一个样本集合并求该集合的中心，再计算集合中心与对应的兴趣点之间的余弦相似度。针对两个个性化词典的实验数据对比如表3所示。
表3个性化检索的实验结果对比
[[＼&兴趣点的搜索结果与用户兴趣模型的相似度＼&IGAUPD＼&GAUPD＼&提高比例＼&IT＼&0.1534＼&0.1427＼&7.5%＼&汽车＼&0.1452＼&0.1379＼&5.3%＼&财经＼&0.0859＼&0.0785＼&9.4%＼&体育＼&0.1187＼&0.1042＼&1

3.4%＼&平均值＼&0.1258＼&0.1158＼&8.6%＼&]]

从表3可以看出，在个性化检索中，用基于IGAUPD的个性化词典提供扩展词，比基于GAUPD的个性化词典有更好的检索结果，四个兴趣点的平均提高比例为8.6%，这说明基于IGAUPD的个性化词典提供的扩展词能准确地反映用户的兴趣偏好。
综上所述，由于采用了IWTUPD，IGAUPD能够比GAUPD更准确地计算词权，基于IGAUPD的个性化词典关键词和扩展词更能体现用户的兴趣和兴趣偏好，且排序更准确，因此，在用户兴趣建模和个性化检索中，使用基于IGAUPD的个性化词典能够更准确地建立用户兴趣模型，检索到更符合用户兴趣的结果。总之，基于IGAUPD的个性化词典比基于GAUPD的个性化词典更有优势。

4 结束语

本文针对个Web检索中的个性化问题，提出了一种改进的权值计算公式IWTUPD用于计算个性化词典中的关键词和扩展词的词权，并对GAUPD算法进行了改进，提出了IGAUPD算法。实验表明，IGAUPD算法生成的个性化词典比GAUPD算法生成的个性化词典能更好地支持用户兴趣建模和个性化检索。在下一步的研究中，我们将研究更合适的权值计算公式用于生成个性化词典，并研究如何动态地更新个性化词典，使得个性化词典能够随着用户兴趣的变迁而不断调整。
参考文献：
罗颖，朱征宇，李力沛，周智.Web检索模型上个性化词典的研究与实
现[J].计算机应用研究，2009.10.
刘静，李华亮.个性化搜索引擎中兴趣学习方法的研究[J].计算机时
代，2009.11：31-33
[3] 周序生，李爽.网页自动分类的建模与仿真研究[J].计算机仿真，
201

1.28（10）：121-124

[4] 陈志雄，朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学
院学报，201

1.29（2）：18-21

[5] 韩立毛，鞠时光，羊晶璟.个性化搜索引擎中网页特征描述的研究[J].
计算机工程与应用，201

1.47（11）：94-97

[6] Zhu Zhengyu， Tian Yunyan， Yuan Kunfeng， et al.An improved
Web documents claustering methord[J].Journal of Computational Information Systems，200

7.3（3）：1087-1094

[7] 徐静秋，朱征宇，谭明红，任翔.基于二级向量描述的搜索引擎个性化
怎么写作模型[J].计算机科学，200

7.34（11）：89-93

[8] 罗欣，夏德麟，晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公
式[J].计算机应用，200

5.25（9）：2031-2033

[9] 于洪波.网页特征提取技术研究[J].山东理工大学学报，201

1.25（2）：

107-110
[10] 张敏.基于Web的个性化信息检索关键技术研究[J].计算机时代，
2006.3：37-38

试议词典面向Web检索作个性化词典和实现网