一、 引言
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具,但是这些通用性搜索引擎存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果,包含大量用户不关心的网页。所以需要一个能基于主题搜索的,满足特定需求的网络爬虫。 为了解决上述问题,参照成功的网络爬虫模式,对网络爬虫进行研究,提供满足特定搜索需求的网络爬虫。二、 实验设计
1. 实验要求
- 可以进行多线程进行抓取;
- 可以进行面向主题进行抓取;
- 可以分辨重复的的网页内容;
- 可以计算主题相关性;
- 可以处理网络延时等待的处理;
- 系统硬件环境:LENOVO-G470 Intel Core(TM) i3-2330M@2.20GHz
- 操作系统环境:Windows 8.1 专业版
- 实验配置环境:Java SE Development Kit 7 Update 45;