主题搜索引擎的探究
规定数据源的格式,而只提供了1个通用的结构(Document对象)来接收索引的输入,因此输入的数据源可以是:数据库、WORD文档、PDF文档、HTML文档……,只要能够设计相应的解析转换器将数据源构造成Docuement对象即可进行索引。本设计实现了doc、ppt、xls、pdf、txt、xml解析转换器将其文本信息提取出来。 3.4 搜索性能的比较 经过多次测试取平均值,本设计在搜索主题信息的平均速度上比Google要快,虽然数量上不如Google检索的多,但在信息符合度上明显比其强。这样就已经符合主题用户,不一定要多只要精而且节省时间的需求,这对于当今效率优先的市场来说是非常有竞争力的。应用Lucene的搜索引擎的检索速度与计算机的配置有关,配置较好的计算机的搜索时间相对要少。以检索关键字编程为例,Lucene与Google性能比较结果如表1所示。 全文检索引擎Lucene所构建的搜索引擎的搜索个数是由磁盘存储的信息量的多少决定的,搜索时间除了第1次检索有点慢,以后的时间耗费明显少于通用搜索引擎。虽然通用搜索引擎提供的信息量大,但是并不是所有的信息都符合用户的需求,用户要在大量的信息中筛选有用的信息要花费大量的时间,可见主题搜索引擎的优势,本设计基本符合预期的结果。 本文提出了一种解决中文全文检索的方法,嵌入到Lucene中可以应用到搜索引擎、中小企业网站站内检索、个人用户桌面搜索引擎建立、特定文档检索数据库建立等,从而实现对目标文档方便地检索管理,提高检索效率。并且通过对全文检索引擎Lucene的研究以及在Lucene API上的扩展,可以开发出多种应用程序,如:网站内容搜索系统、可检索的邮件系统、海量文献数据搜索系统。为了开发出性能指标更高的搜索引擎可以根据现有的排序算法或自定义排序算法自行开发结果排序模块加入到Lucene中来进行测试比较,这些都有待于继续研究。
- 探究MPC82XX的UPM方式应用(01-04)
- 基于Android的移动本地个人数字图书馆系统探究(12-20)
- Windows CE 进程、线程和内存管理(11-09)
- RedHatLinux新手入门教程(5)(11-12)
- uClinux介绍(11-09)
- openwebmailV1.60安装教学(11-12)