试议模型科技项目相似性检测系统-turnitin论文查重

摘要：随着政府对科技项目投入的经费逐年增加,科技项目申报数量和范围的逐步扩大,导致了项目审查和评审工作量的剧增,同时引起了种种管理上的难题,出现了很多“重复立项”的不足。目前,文档复制检测技术在保护知识产权和优化搜索引擎方面运用广泛,但在科技项目管理领域运用甚少。本论文主要探讨基于科技项目知识表示模型的一种基于字段的相似度计算策略及其系统,便于高效、准确地查找相似的科技项目,向项目评审者提供预警,有效防止同类科技项目重复立项。论文主要探讨工作包括：1针对科技项目知识表示,探讨提出一种结合向量空间模型和物元模型的知识表示模型。通过科技项目文本分词获取关键词,运用TF策略计算关键词权重,以而建立科技项目知识表示模型。2基于项目知识表示模型,探讨提出一种基于字段结构的科技项目相似度计算策略。本策略以科技项目单个字段作为关键词词频统计单元,采取字符串Hash匹配的策略,根据向量余弦公式计算项目对应字段之间的相似度,再对各字段相似度加权平均得到项目之间的相似度。3基于以上探讨成果开发了科技项目相似性检测系统。系统由项目知识库、项目知识构建模块、相似度计算模块、判断和解释模块以及并行计算任务管理模块组成。首先,项目知识构建模块为待审查项目知识和已立项项目知识信息构建项目知识模型。然后,相似度计算模块根据这两个项目知识模型计算出相似度。最后,判断和解释模块根据相似度来判断项目之间的相似联系。而并行计算任务管理模块的主要任务则是对相似度计算模块、判断和解释模块进行并行处理。本论文开发的科技项目相似性检测系统已运用于浙江省科技项目管理系统中,运用验证了论文探讨成果的可行性和有效性,对重复立项不足提供了良好的检查和预警手段。关键词：科技项目论文相似度计算论文知识表示模型论文物元模型论文

摘要5-6

ABSTRACT6-10

第1章绪论10-16

1.1 课题提出的背景和作用10

1.2 国内外探讨近况10-14

1.2.1 文档复制检测技术10-12

1.2.2 文本相似度计算12-13

1.2.3 中文分词13-14

1.3 主要探讨内容与革新点14

1.4 本论文的内容安排14-15

1.5 本章小结15-16

第2章文档复制检测技术16-21

2.1 文本分词16-17

2.1.1 基于字符串匹配的分词策略16

2.1.2 基于统计学的分词策略16

2.1.3 基于字标注的分词策略16-17

2.2 特点选择策略17-19

2.2.1 文档频率17-18

2.2.2 信息增益18

2.2.3 互信息18

2.2.4 类别区分词18-19

2.3 文本块大小的不足19-20

2.4 文档表示模型20

2.5 文档相似度计算20

2.6 本章小结20-21

第3章科技项目知识表示模型21-29

3.1 向量空间模型21-23

3.1.1 基本概念21-22

3.1.2 特点项的粒度选择22-23

3.2 基于可拓学的知识表示23-24

3.2.1 基于物元的知识集表示23-24

3.2.2 基于联系元的知识集联系表示24

3.3 知识集的相关性浅析24-25

3.3.1 知识集的相似联系24-25

3.4 科技项目预处理25-26

3.4.1 项目字段结构抽取25

3.4.2 字段文本分词25-26

3.4.3 字段特点提取26

3.5 科技项目知识表示26-27

3.5.1 科技项目知识模型26-27

3.6 项目知识库27-28

3.7 本章小结28-29

第4章科技项目相似度计算29-38

4.1 基于统计学的相似度计算29-31

4.1.1 基于向量空间模型的TF-IDF策略29-31

4.2 基于语义理解的相似度计算31-34

4.2.1 词语相似度31-33

4.2.2 句子相似度33-34

4.2.3 段落相似度34

4.3 项目智能化预处理34-35

4.4 基于字段结构的科技项目相似度计算35-37

4.5 本章小结37-38

第5章科技项目相似性检测系统实现38-50

5.1 系统系统结构38-39

5.2 项目知识构建模块39-41

5.3 项目相似度计算模块41-43

5.4 判断和解释模块43-45

5.5 并行计算任务管理模块45-46

5.6 实验结果46-49

5.7 本章小结49-50

第6章总结与展望50-51

6.1 本论文的总结50

6.2 探讨工作的展望50-51

致谢51-52

试议模型科技项目相似性检测系统

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢