摘要5-6
ABSTRACT6-10
第1章 绪论10-16
1.1 课题提出的背景和作用10
1.2 国内外探讨近况10-14
1.2.1 文档复制检测技术10-12
1.2.2 文本相似度计算12-13
1.2.3 中文分词13-14
1.3 主要探讨内容与革新点14
1.4 本论文的内容安排14-15
1.5 本章小结15-16
第2章 文档复制检测技术16-21
2.1 文本分词16-17
2.1.1 基于字符串匹配的分词策略16
2.1.2 基于统计学的分词策略16
2.1.3 基于字标注的分词策略16-17
2.2 特点选择策略17-19
2.2.1 文档频率17-18
2.2.2 信息增益18
2.2.3 互信息18
2.2.4 类别区分词18-19
2.3 文本块大小的不足19-20
2.4 文档表示模型20
2.5 文档相似度计算20
2.6 本章小结20-21
第3章 科技项目知识表示模型21-29
3.1 向量空间模型21-23
3.1.1 基本概念21-22
3.1.2 特点项的粒度选择22-23
3.2 基于可拓学的知识表示23-24
3.2.1 基于物元的知识集表示23-24
3.2.2 基于联系元的知识集联系表示24
3.3 知识集的相关性浅析24-25
3.3.1 知识集的相似联系24-25
3.4 科技项目预处理25-26
3.4.1 项目字段结构抽取25
3.4.2 字段文本分词25-26
3.4.3 字段特点提取26
3.5 科技项目知识表示26-27
3.5.1 科技项目知识模型26-27
3.6 项目知识库27-28
3.7 本章小结28-29
第4章 科技项目相似度计算29-38
4.1 基于统计学的相似度计算29-31
4.1.1 基于向量空间模型的TF-IDF策略29-31
4.2 基于语义理解的相似度计算31-34
4.2.1 词语相似度31-33
4.2.2 句子相似度33-34
4.2.3 段落相似度34
4.3 项目智能化预处理34-35
4.4 基于字段结构的科技项目相似度计算35-37
4.5 本章小结37-38
第5章 科技项目相似性检测系统实现38-50
5.1 系统系统结构38-39
5.2 项目知识构建模块39-41
5.3 项目相似度计算模块41-43
5.4 判断和解释模块43-45
5.5 并行计算任务管理模块45-46
5.6 实验结果46-49
5.7 本章小结49-50
第6章 总结与展望50-51
6.1 本论文的总结50
6.2 探讨工作的展望50-51
致谢51-52