主题搜索引擎聚类算法的研究
【摘要】:当互联网走入我们的生活并逐渐改变这个世界的时候,搜索引擎,作为信息检索最有效的工具也逐渐被我们熟悉和使用。互联网给我们带来了信息共享的一次巨大革命,搜索引擎给这场革命注入了鲜活的血液。面对浩如烟海的网络资源,搜索引擎就好像是航船的指南针,引领着人们在网络中冲浪。根据最近统计,在中国搜索引擎使用率达到81.9%,用户规模3.75亿。搜索引擎已经成为第一大网络应用服务,是用户获取信息的首要途径。
本文首先介绍了国内外搜索引擎技术的发展及研究现状,总结了目前常用的全文检索搜索引擎的基本工作原理和存在的问题,接着详细讨论了文本聚类的原理以及几种常有聚类算法和改进方向。本文通过大量实验,提出了词频变差的理论,并将该理论应用于主题词的提取。通过对聚类算法的研究,提出了最优密度选择聚类算法。并将此算法和层次聚类算法结合在一起进行文本聚类,优化了文本聚类技术,提升了搜索引擎查询性能。在此基础上实现了面向主题的文本聚类算法的搜索引擎。该搜索引擎与同类搜索引擎相比,更具有专业化特点,查询信息的准确度也有所提升。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|