五、实验验证及比较分析
系统选用Java作为开发语言,使用开源的MySql数据库和Eclipse集成开发环境、resin服务器以及JSP技术最终完成系统的开发和部署。
1.实验验证
为求检索效果鲜明,本文设计实验与Google进行了查询效果对比。实验描述:首先,用机器人抽取百度百科开放分类的自然类别的全部词条作为科普词条测试集;其次,随机从词条中选取500个词条作为一次实验的实验样本;再次,分别以相同词条查询科普深度搜索引擎和Google,统计两者查询结果中百度百科词条首页出现的概率。累计做五次实验,实验结果
DSEPS科普深度搜索引擎简称(The Deep Search Engine of Popular
Science)与通用的搜索引擎如百度、Google相比,系统具有以下特色:
(1)在科普领域检索效果更专业化,适用于对检索科普知识有专业需求的用户。
(2)适用于多种行业信息搜索,具有较强的针对性,使用不同的网页分类训练集,训练网页分类信息抽取机器人后可用于多种专业的情报信息的自动搜集、分析和检索。
(3)具有实时性。对深网的信息集成是一种实时的信息检索机制,可以在一定程度上缓解传统搜索引擎因url失效所致的一系列问题。
2.相关工作比较分析
主题搜索引擎面向某一特定的专业领域,保证了对该领域信息的完全收录与及时更新。
常用的主题搜索爬行策略主要有:(1)人工预选策略即为此策略;(2)基于文字内容的启发策略,主要包括:Best first search方法、Fish search方法、Shark search方法就是采用Fish方法;(3)基于Web超链图评价的方法,主要的爬行算法是Back-Link和Page-Rank。文献就采用了Page-Rank,而文献采用的是改进的Page-Rank。
页面主题相关性的判断,即判断一篇网页是否与主题相关。目前常用的方法是基于关键词的向量空间模型(VSM)算法,就是采用这种算法。此外,基于分类器的方法也越来越多地被应用到主题相关性判断中,有关实验结果表明,使用主题分类器来指导网络爬虫爬行主题相关网页的效果要好得多。Chakrabarti等人第一次提出基于朴素贝叶斯分类模型引导主题Web爬虫,采用基于类中心分类法的分类器,文献采用的是Widrow-Hoff分类器,采用了Rocchio算法作为分类器的基本算法,则采用了距离分类器,本文选择了文本分类技术中效果较好的SVM分类器。
主题网络爬虫覆盖度的提高,主要指穿越与主题无关的网页得到与主题相关的网页。目前隧道穿越技术(Tunneling)正是在这个方向上的研究。隧道的穿越问题被公认为主题爬行中的困难问题,在相关论文中讨论较少。Donna Bergmark等人研究得出从一个主题相关网页到另一个主题相关网页的路径对后继爬行具有指导作用。PantPant,G.,P.Srinivasan,and F.Menczer.“Exploration versus Exploitation in Topic Driven Crawlers”等人采用了一种利用单个贪婪参数和Best-N-First方法来控制爬行算法的探索过程。将隧道分为灰色隧道(Grey Tunneling)和黑色隧道(Black Tunneling)两种类型分别给出爬行方式。本文从搜索领域深度着手,采用深网信息集成技术扩大搜索范围。
与以上工作比较,本文研究工作的主要特点在于:(1)在页面主题相关性判断上,采用基于SVM分类模型的分类器,分类准确率达90%以上,大大提高了主题分类机器人的爬准率;(2)在领域覆盖范围上,首次将领域深度考虑到搜索范围内,利用深网信息集成技术采集科普领域深网信息,深化了领域搜索范围;(3)实时性,本文在深网信息集成部分采用了实时的设计方案,根据用户输入查询条件实时进行采集并快速返回查询结果,有效地缓解了主题爬虫链接失效所带来的问题。
六、结束语
本文综合运用主题搜索引擎技术和深网信息集成技术设计并实现了科普深度搜索引擎,其中主题搜索部分针对科普领域信息的特点,设计出人工干预与先采集后过滤相结合的主题搜索引擎信息采集策略,采用基于SVM分类器的主题分类机器人进行数据采集。深网信息集成部分采用基于网页结构分析的表单填写技术实现。目前该项目正在建设中,本设计方案还有待进一步验证和完善。进一步要做的工作是:(1)扩大深网集成规模,提高实时查询效率;(2)进一步优化爬行策略,将url链接相关性预测添加到爬行策略中,指导主题分类机器人爬行;(3)进一步提高分类准确率,一般认为html的结构对文本特征有指向作用,将其添加到特征提取的权值计算中,能提高对网页的分类准确率。