摘要:随着时间的慢慢的往后延续,科学技术水平不断的革新,网络通讯也越来越发达,网络信息的发布和传输越来越快,人们对数据的需求量的急剧的增加,Web上的信息也同时以大指数级的增加,慢慢的网络信息的过滤的显得尤为的重要,同时也不断的推动着网络爬虫技术的快速向前改善,对于传统的网页爬虫所选择的过滤条件过与广泛,导致信息的及时性与主题的相关性的很难得到保障,所以对于如何提升网络爬虫的搜索效率以及信息的过滤就很值得探讨了。本论文探讨目的在于提升搜索的效率,在最少的时间内得到用户最想要的结果,Web采集信息的主要历程包括:网页爬取,网页过滤,网页浅析,网页本地化,网页爬取需要解决的不足是通历程序高效的抓取到目的网页,页面过滤对垃圾页面,页面内容进行浅析过滤,页面浅析对获取的页面进行拆分组合的历程,页面本地化是对页面的客户端完整显示出来。本论文实现了一个可以自动抓取网页的Spider,详细的讲解了URL地址剖析,去重,页面加载,页面过滤等关键技术,对URL地址剖析,在提升程序运转的性能,表达验证,搜索对策进行探讨。网页浅析方面主要探讨了通过对html标签进行剖析提取这一简单可行的策略提取网页中的正文,URL链接,js,css等脚本论文件,图片,多媒体文件。网页本地化如何是客户端展现的页面可原先的页面保存一致,最后通过一个实例进行实验。关键词:网络爬虫论文页面浅析论文搜索论文引擎论文网络运用程序结构论文
摘要4-5
Abstract5-8
1 绪论8-13
1.1 探讨背景8
1.2 课题的探讨背景和作用8-10
1.3 网络爬虫国内外进展近况10-11
1.4 论文的探讨内容11-13
2 相关论述及关键技术13-18
2.1 搜索引擎的基本工作原理13-14
2.2 HTTP 协议14-16
2.3 正则表达式16-17
2.4 本章小结17-18
3 网页爬虫系统浅析与设计18-34
3.1 网页爬虫系统的需求浅析18-19
3.2 系统功能设计19-20
3.3 系统主要功能模块设计20-33
3.4 本章小结33-34
4 网页爬虫系统实现34-50
4.1 开发工具34
4.2 网页爬虫各部分的实现34-45
4.3 线程管理的实现45-49
4.4 本章小结49-50
5 网页爬虫系统测试50-55
5.1 测试环境50
5.2 测试策略50-51
5.3 测试历程51-54
5.4 测试结果54
5.5 本章小结54-55
6 总结与展望55-57
6.1 全文总结55-56
6.2 展望56-57
致谢57-58