期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《西南交通大学》 2004年
加入收藏 获取最新

基于Java的新闻搜索引擎的设计与实现

常晓燕  
【摘要】:作为除电视、报纸、广播之外的第四大媒体,互联网已经成为人们获取新闻信息的主要来源。快速的从众多新闻网站中找到所需新闻,是新闻搜索引擎的基本任务。有重大事件发生时,如何使客户及时得到最新消息,也是当今新闻服务所关心的问题。对于高速列车来说,开发数字高速铁路旅客信息系统,让旅客享受移动式的全新的数字化服务是改善服务软环境的措施之一。本文结合搜索、数据库、网络等多种技术,实现了用于高速铁路旅客信息系统的新闻搜索引擎,该引擎为高速列车提供实时新闻。 本文从搜索引擎技术开始,阐述了搜索引擎的基本原理、所采用的相关技术,进而引出专题搜索引擎,交代了为提高专题性所采取的几种方法。最后作为专题性搜索引擎的一种,重点阐述了新闻搜索引擎,分析了网页文档半结构化的数据特点以及各大新闻网站对新闻网页的布置特点,并对新闻网页的获取、新闻内容提取算法作了详尽的论述。该引擎采用robot新闻搜索程序从Internet上取回新闻放入数据库中,由用户端程序为用户提供分类新闻、关键词搜索功能。用户可以进行个性化设置,限定新闻的刷新频率,新闻源范围。程序根据用户的设置定时刷新新闻。 该新闻搜索引擎经过测试,满足高速铁路旅客信息系统的需求,达到预期的设计效果,对我国高速铁路数字化具有一定的现实意义。同时也为其他相关项目的设计提供了参考。
【关键词】:搜索引擎 专题性搜索 机器人程序 高速铁路旅客信息系统 新闻搜索引擎
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP311.52
【DOI】:CNKI:CDMD:2.2004.106481
【目录】:
  • 第1章 绪论8-12
  • 1.1 研究背景8
  • 1.2 新闻搜索的发展现状8-11
  • 1.3 论文内容组织11-12
  • 第2章 搜索引擎12-26
  • 2.1 搜索引擎的概述12-13
  • 2.1.1 搜索引擎分类12-13
  • 2.1.2 搜索引擎的发展13
  • 2.2 搜索引擎工作原理13-14
  • 2.2.1 全文搜索引擎13-14
  • 2.2.2 目录索引14
  • 2.3 搜索引擎组成14-16
  • 2.3.1 搜索器14-15
  • 2.3.2 索引器15
  • 2.3.3 检索器15
  • 2.3.4 用户接口15-16
  • 2.4 采用的技术16-25
  • 2.4.1 Robot技术16-20
  • 2.4.2 中文分词技术20-23
  • 2.4.3 信息预处理技术23
  • 2.4.4 信息检索技术23-24
  • 2.4.5 检索结果处理技术24
  • 2.4.6 人机界面技术24-25
  • 2.4.7 数据存储25
  • 2.5 本章总结25-26
  • 第3章 专题性搜索引擎26-36
  • 3.1 专题性搜索引擎概述26-28
  • 3.1.1 专题性搜索引擎特点26
  • 3.1.2 专题搜索引擎的工作原理26-28
  • 3.2 专题搜索引擎搜索策略28-29
  • 3.2.1 人工预选策略28-29
  • 3.2.2 先采集后过滤策略29
  • 3.3 专题性搜索的数据采集技术29-30
  • 3.3.1 首页关联技术29-30
  • 3.3.2 链长比技术30
  • 3.3.3 其他策略30
  • 3.4 新闻搜索引擎概述30-31
  • 3.5 新闻搜索引擎搜索算法实现31-35
  • 3.5.1 HTML网页的获取31
  • 3.5.2 HTML文档的提取31-32
  • 3.5.3 URL队列的获得32-34
  • 3.5.4 避免锤击34
  • 3.5.5 网络陷阱34-35
  • 3.6 本章小结35-36
  • 第4章 新闻搜索引擎分析设计36-50
  • 4.1 引擎背景36-38
  • 4.1.1 高速列车旅客信息系统36-37
  • 4.1.2 短消息传送37-38
  • 4.2 设计指导原则38-39
  • 4.3 用户功能要求39
  • 4.4 系统架构39-40
  • 4.4.1 方案选择39-40
  • 4.4.2 系统架构40
  • 4.5 后台设计40-45
  • 4.5.1 搜索步骤41-42
  • 4.5.2 功能模块42-43
  • 4.5.3 具体实现思路43-45
  • 4.6 前台设计45-46
  • 4.6.1 前台程序实现45-46
  • 4.6.2 数据的更新46
  • 4.7 数据库设计46-49
  • 4.7.1 数据库需求分析47
  • 4.7.2 数据库概念结构设计47-48
  • 4.7.3 数据库逻辑结构设计48-49
  • 4.8 本章小结49-50
  • 第5章 新闻搜索引擎的实现50-68
  • 5.1 运行环境50
  • 5.2 软件开发环境50-51
  • 5.3 系统详细设计51-59
  • 5.3.1 URL收集器(UrlGather)51-53
  • 5.3.2 新闻收集器(NewsGather)53-54
  • 5.3.3 网页文本获取器(fetch)54
  • 5.3.4 网页分析器(Hparser)54-56
  • 5.3.5 数据库处理56
  • 5.3.6 Collect_Resule类56
  • 5.3.7 线程池56-57
  • 5.3.8 GatherApp类57-58
  • 5.3.9 其他输入输出文件58-59
  • 5.3.10 前台程序实现59
  • 5.4 程序运行相关界面59-64
  • 5.5 新闻搜索引擎的评测64-65
  • 5.5.1 评测方法64
  • 5.5.2 系统评测64-65
  • 5.6 新闻搜索引擎运行环境65-66
  • 5.6.1 结构模式65-66
  • 5.6.2 必备软件环境66
  • 5.6.3 硬件环境66
  • 5.7 网站新闻短消息定制服务与本新闻搜索引擎的比较66-67
  • 5.8 本章总结67-68
  • 总结68-70
  • 致谢70-71
  • 参考文献71-76
  • 攻读硕士学位期间发表的论文76
全文下载: CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国硕士学位论文全文数据库 前1条
1 卢毓亮;面向Web站点的搜索引擎研究与实现[D];西安理工大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 孙莉苹,张永奎;网上信息检索中BOT站点爬行方法[J];电脑开发与应用;2001年10期
2 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期
3 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
4 张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期
5 阳爱民,杨岳湘,瞿国平;网络机器人的分布性和可控性设计及研究[J];计算机工程;2000年06期
6 刘向辉,尚振宏,胡建华;新一代Web搜索引擎中数据的抽取[J];昆明理工大学学报;2000年03期
7 丁国良,王嘉祯;专题式Web信息检索系统的设计与实现[J];军械工程学院学报;2000年01期
8 何凌云,孙恒,王命延;Web信息自动搜索系统的设计与研究[J];计算机与现代化;2002年06期
9 阳小华;WWW信息收集的ROBOT技术[J];计算机应用研究;2000年04期
10 冯天飞,施法中,王瑛;基于Web的新闻自动发布系统的设计和实现[J];计算机应用;2001年03期
【共引文献】
中国期刊全文数据库 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期
3 张玉宝;;中文搜索引擎的原理及相关技术分析[J];福建电脑;2008年01期
4 王树锋,张永奎;交叉语言信息检索研究[J];电脑开发与应用;2001年11期
5 白云晖;;基于信息增益特征选取和覆盖的中文文本分类[J];福建电脑;2008年07期
6 郭一平;王亮;;一种基于DNS的分层式网页搜索引擎研究[J];高校图书情报论坛;2006年02期
7 郭一平;王亮;;域内资源整合系统中搜索引擎的设计[J];高校图书情报论坛;2006年03期
8 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期
9 耿骞,刘畅;分布式检索系统及其体系结构[J];国家图书馆学刊;2004年02期
10 姜杰;分布式Robot系统结构设计[J];福建电脑;2005年12期
中国重要会议论文全文数据库 前10条
1 杨卫明;;独立式搜索引擎原理及存在问题分析[A];2008年计算机应用技术交流会论文集[C];2008年
2 鲁明羽;熊光辉;陆玉昌;徐大力;;面向中医药领域的Web信息获取与挖掘[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 李慧敏;邬群勇;王钦敏;;Robot技术在空间信息服务搜索中的应用研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
5 陈魁;荣莉莉;;标准元搜索引擎——概念及其模型[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
6 鲁娆;;基于Web的图像数据库系统的设计与实现[A];探索创新交流--中国航空学会青年科技论坛文集[C];2004年
7 刘项洋;侯整风;;ASP技术在网络教学系统中的应用[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
8 吴春胤;陈联诚;俞守华;;基于AgMES的搜索引擎的设计与实现[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
9 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 文坤梅;基于本体知识库推理的语义搜索研究[D];华中科技大学;2007年
2 叶作亮;基于制造网格的制造资源管理若干关键技术研究[D];浙江大学;2006年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 韩冰;基于智能软计算的视频镜头分割算法研究[D];西安电子科技大学;2006年
5 周伟;基于网络的协同设计系统数据交换及管理关键技术研究[D];重庆大学;2007年
6 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
7 杨全成;天津市前列腺癌发病诊断治疗状况调查及相关网络数据库构建[D];天津医科大学;2006年
8 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
9 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
10 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 沙丽华;面向领域文档的语义标注方法研究[D];吉林大学;2009年
2 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
3 刘晨;专利信息获取与分析系统关键技术研究[D];北京工业大学;2009年
4 卢苇;基于双语翻译搜索引擎的智能用户接口的研究[D];武汉理工大学;2009年
5 段建国;基于双语翻译的个性化搜索引擎的研究与设计[D];武汉理工大学;2009年
6 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
7 仇绍刚;基于元搜索的知识获取方法与系统集成研究[D];大连理工大学;2009年
8 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年
9 周龙峰;足球世界杯赛事资源数据库建设[D];首都体育学院;2008年
10 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 Jeff Prosise ,一帆;在Web上爬行[J];个人电脑;1996年09期
2 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
3 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
4 阳小华;WWW信息收集的ROBOT技术[J];计算机应用研究;2000年04期
5 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
6 肖明忠;代亚非;;Bloom Filter及其应用综述[J];计算机科学;2004年04期
7 陈康,许婷,戴文俊,武港山;基于Web的全文搜索引擎的设计与实现[J];计算机工程;2005年20期
8 刘伟成;情报检索模型的比较与评价研究[J];情报杂志;2004年11期
9 吴丽华;罗云锋;张宏斌;;信息检索模型及相关性算法的研究[J];情报杂志;2006年12期
10 李雅琼;;基于元搜索引擎的异构数据检索系统研究[J];情报杂志;2006年12期
【二级参考文献】
中国期刊全文数据库 前10条
1 王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期
2 卢世光,丁方忠;搜索引擎使用技术回顾和发展趋势探讨[J];广东通信技术;1999年05期
3 阳小华;周龙骧;;World Wide Web的索引与查询技术[J];计算机科学;1997年06期
4 顾韵华,龚俭;电子新闻管理系统的研究[J];计算机应用与软件;2000年08期
5 张德;董逸生;;自适应Web站点:挑战与机遇[J];计算机科学;2000年07期
6 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
7 张朝晖,陆玉昌,张钹;利用神经网络发现分类规则[J];计算机学报;1999年01期
8 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
9 王利强,唐常杰,于中华,何雪梅;基于Web的数据采掘[J];计算机应用;1998年10期
10 蒋澄,马范援,蒋思杰;中英文WWW搜索引擎的信息处理[J];计算机工程;1999年04期
【相似文献】
中国期刊全文数据库 前10条
1 万怡;MultiMove功能预示机器人应用新时代的到来[J];现代零部件;2005年05期
2 杨英;机器人程序支持系统的概念[J];管理科学文摘;1994年02期
3 陈书明;年鉴专题性条目的选题与编写[J];年鉴信息与研究;2003年03期
4 徐毓良,陈宝康;一种机器人程序设计语言[J];机器人;1988年03期
5 雷琪;科技期刊的专题策划[J];编辑学报;2005年04期
6 杨培;徐滨士;吴林;朱胜;;基于弧焊机器人的柔性再制造系统[J];电焊机;2006年03期
7 朴永杰,朱振友,邱涛,陈善本;汽车前梁总成机器人点焊柔性加工单元[J];电焊机;2003年07期
8 干薇;同计算机对话[J];国外科技动态;1999年07期
9 王历生;谈校报综合性副刊的专题集纳[J];山东工业大学学报(社会科学版);1995年04期
10 ;大补贴[J];电脑爱好者;2002年20期
中国重要会议论文全文数据库 前10条
1 桂耀樑;赵国弟;王开屏;浦振明;陈华琪;陈刚;;小学阶段开设机器人课程的可行性研究[A];创新在这里奠基——上海市青少年科技辅导员论文汇编[C];2006年
2 秦英芳;;点燃生命的缤纷四季——语文专题性学习探讨[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
3 何广忠;高洪明;吴林;;基于高级建模系统的机器人弧焊离线编程系统的开发[A];第十一次全国焊接会议论文集(第2册)[C];2005年
4 吴林;张广军;高洪明;;焊接机器人技术[A];第二届全国装备再制造工程学术会议暨首届青年再制造工程学术论坛论文集[C];2006年
5 赵清华;;中小型科技馆可举办专题性常设展[A];2004年科技馆学术年会论文选编[C];2004年
6 宋红梅;;让摄影专版生动起来——试谈专题摄影报道的题材选择与编排[A];奋力推动新闻摄影与时俱进——第九届全国新闻摄影理论年会暨新闻摄影高层论坛论文集[C];2002年
7 张立柱;;关于陈列大纲的命题思考[A];回顾与展望:中国博物馆发展百年——2005年中国博物馆学会学术研讨会文集[C];2005年
8 罗红;;科学技术馆参观学习方法的思考[A];中国科协2005年学术年会论文集——西部科普场馆建设与发展[C];2005年
9 苟宗泽;;论高校学报学术质量评估[A];学报编辑文集[C];1991年
10 ;搞好新闻摄影比赛 充分发挥图片宣传作用[A];全国报纸总编辑新闻摄影研讨会材料汇编[C];1990年
中国重要报纸全文数据库 前10条
1 ;微软机器人:一家一台[N];电脑商报;2007年
2 一理;在MSN上卖盒饭[N];海峡财经导报;2007年
3 孟凌声;“专题性效果”引领辽宁省政协视察工作创新[N];人民政协报;2006年
4 陈彬;ADI创新设计大赛 不仅仅是创新能力[N];科学时报;2007年
5 乐天;浏览器引发恶意软件梦魇[N];计算机世界;2007年
6 郑雪蕾;莱索托土地利用和城镇规划管理研修班开课[N];中国国土资源报;2008年
7 何晓明;专题性史学评论值得提倡[N];光明日报;2002年
8 苏功庭;福建:多样化文化服务惠泽群众[N];中国文化报;2007年
9 陈勇;微软称:机器人正像个人电脑一样“下凡”[N];新华每日电讯;2006年
10 石菲;靠什么成就品牌?[N];中国现代企业报;2006年
中国博士学位论文全文数据库 前5条
1 何广忠;机器人弧焊离线编程系统及其自动编程技术的研究[D];哈尔滨工业大学;2006年
2 陈学东;近代科学学科规训制度的生成与演化[D];山西大学;2004年
3 张琼;矛盾情结与艺术模糊性[D];复旦大学;2005年
4 广少奎;南京国民政府教育部及其行政制度研究[D];华中师范大学;2005年
5 宁连华;数学探究学习研究[D];南京师范大学;2004年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭