收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于RSS的搜索引擎的研究与实现

戚晶  
【摘要】:RSS(Really Simple Syndication简单信息聚合)已被广泛接受和应用,丰富的RSS站点资源正影响着互联网内容的浏览利用。对于一些以RSS格式发布的内容的搜索,用普通的搜索引擎搜索效率低,更新速度慢,而RSS搜索引擎克服了这些缺点,实现了高效率、高速度地搜索这种通过RSS种子发布的页面。本文介绍RSS概念和RSS搜索引擎的概念,研究并实现了RSS种子的收集、RSS页面的解析、索引的建立以及搜索和搜索结果的排序问题。 本文在介绍了RSS规范以及搜索引擎的基本概念的基础上,首先,研究并实现了站点爬行器来收集RSS种子;其次,研究了RSS种子的解析,使用XML解析器来解析RSS种子,提取链接、标题、描述等要素;再次,对RSS种子所描述的页面文档解析进行研究,编写了功能较为完善的类库,可以提取文档的标题、链接、描述,具有较强的复用性;最后,研究了文本预处理、文档模型的建立和搜索结果的排序技术,分别采用了基于向量空间的文档模型、基于规则的中文分词算法、倒排文件作为索引方式、向量相似度算法对搜索结果进行排序。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 肖莉;;论RSS聚合技术对竞争情报工作的影响[J];图书情报工作;2007年04期
2 程健;皮丽娟;;用C语言实现传感器XML标签的解析[J];化工自动化及仪表;2007年06期
3 张迪;朱敏;张凌立;;基于SAX的XML解析与应用[J];计算机与数字工程;2008年07期
4 寇建华;左洪福;苏艳;;交互式电子技术手册解析关键技术研究[J];电脑知识与技术;2009年28期
5 连瑞梅;;基于XML自动阅卷系统的研究[J];潍坊学院学报;2011年02期
6 陈力;刘明政;;RSS技术与信息媒体聚合[J];情报杂志;2006年09期
7 鱼雷;李晖;陈娟;;VTD-XML解析技术研究[J];现代电子技术;2006年21期
8 安自强;赵俊锋;;基于DOM的XML解析与应用[J];承德石油高等专科学校学报;2006年04期
9 董欣;张晓宇;;一种基于IGRS基础协议栈的服务开发方案[J];中国新通信;2006年23期
10 夏克俭;张瑛;巢群;张法明;张焕生;;XML在数字化校园数据同步平台中的应用研究[J];计算机工程与设计;2008年02期
11 刘雨潇;冒东奎;;基于StAX中事件迭代器API的XML数据解析技术研究[J];现代电子技术;2008年10期
12 朱珊娜;李书琴;安福定;;XML文档到关系数据库的转换研究[J];计算机工程与设计;2008年21期
13 蔚晓娟;冉静;李爱华;尹治本;;基于DOM的XML解析与应用[J];计算机技术与发展;2007年04期
14 李昕;陈志刚;;PHP5中XML解析的应用改进[J];计算机技术与发展;2007年07期
15 文必龙;关翔瑞;周凯;;基于VC平台的XML解析技术分析[J];齐齐哈尔大学学报;2007年05期
16 刘雨潇;冒东奎;;基于StAX中指针API的XML数据解析技术研究[J];宁夏工程技术;2007年04期
17 陈红梅;陈静;李雪冬;;基于Web的数控远程配置系统的设计与实现[J];工业控制计算机;2009年02期
18 冯进;丁博;史殿习;张瞩熹;许凯;;XML解析技术研究[J];计算机工程与科学;2009年02期
19 吴前锋;祝利锋;;通过优化重构提高信息系统资源响应率[J];计算机时代;2011年06期
20 古凌岚;基于.Net框架的XML相关技术的实现[J];计算机工程与设计;2005年07期
中国硕士学位论文全文数据库 前5条
1 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
2 鱼雷;VTD-XML解析技术研究[D];西安电子科技大学;2007年
3 陈鹏路;基于Jabber协议的安全即时通信系统客户端的研究和实现[D];华中科技大学;2007年
4 孙晓宇;Android手机界面管理系统的设计与实现[D];北京邮电大学;2009年
5 欧伟新;统一通信企业通讯录设计技术及实现[D];南京邮电大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978