基于Java的新闻搜索引擎的设计与实现
【摘要】:作为除电视、报纸、广播之外的第四大媒体,互联网已经成为人们获取新闻信息的主要来源。快速的从众多新闻网站中找到所需新闻,是新闻搜索引擎的基本任务。有重大事件发生时,如何使客户及时得到最新消息,也是当今新闻服务所关心的问题。对于高速列车来说,开发数字高速铁路旅客信息系统,让旅客享受移动式的全新的数字化服务是改善服务软环境的措施之一。本文结合搜索、数据库、网络等多种技术,实现了用于高速铁路旅客信息系统的新闻搜索引擎,该引擎为高速列车提供实时新闻。
本文从搜索引擎技术开始,阐述了搜索引擎的基本原理、所采用的相关技术,进而引出专题搜索引擎,交代了为提高专题性所采取的几种方法。最后作为专题性搜索引擎的一种,重点阐述了新闻搜索引擎,分析了网页文档半结构化的数据特点以及各大新闻网站对新闻网页的布置特点,并对新闻网页的获取、新闻内容提取算法作了详尽的论述。该引擎采用robot新闻搜索程序从Internet上取回新闻放入数据库中,由用户端程序为用户提供分类新闻、关键词搜索功能。用户可以进行个性化设置,限定新闻的刷新频率,新闻源范围。程序根据用户的设置定时刷新新闻。
该新闻搜索引擎经过测试,满足高速铁路旅客信息系统的需求,达到预期的设计效果,对我国高速铁路数字化具有一定的现实意义。同时也为其他相关项目的设计提供了参考。
【关键词】:搜索引擎 专题性搜索 机器人程序 高速铁路旅客信息系统 新闻搜索引擎 【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP311.52
【DOI】:CNKI:CDMD:2.2004.106481
【目录】:
- 第1章 绪论8-12
- 1.1 研究背景8
- 1.2 新闻搜索的发展现状8-11
- 1.3 论文内容组织11-12
- 第2章 搜索引擎12-26
- 2.1 搜索引擎的概述12-13
- 2.1.1 搜索引擎分类12-13
- 2.1.2 搜索引擎的发展13
- 2.2 搜索引擎工作原理13-14
- 2.2.1 全文搜索引擎13-14
- 2.2.2 目录索引14
- 2.3 搜索引擎组成14-16
- 2.3.1 搜索器14-15
- 2.3.2 索引器15
- 2.3.3 检索器15
- 2.3.4 用户接口15-16
- 2.4 采用的技术16-25
- 2.4.1 Robot技术16-20
- 2.4.2 中文分词技术20-23
- 2.4.3 信息预处理技术23
- 2.4.4 信息检索技术23-24
- 2.4.5 检索结果处理技术24
- 2.4.6 人机界面技术24-25
- 2.4.7 数据存储25
- 2.5 本章总结25-26
- 第3章 专题性搜索引擎26-36
- 3.1 专题性搜索引擎概述26-28
- 3.1.1 专题性搜索引擎特点26
- 3.1.2 专题搜索引擎的工作原理26-28
- 3.2 专题搜索引擎搜索策略28-29
- 3.2.1 人工预选策略28-29
- 3.2.2 先采集后过滤策略29
- 3.3 专题性搜索的数据采集技术29-30
- 3.3.1 首页关联技术29-30
- 3.3.2 链长比技术30
- 3.3.3 其他策略30
- 3.4 新闻搜索引擎概述30-31
- 3.5 新闻搜索引擎搜索算法实现31-35
- 3.5.1 HTML网页的获取31
- 3.5.2 HTML文档的提取31-32
- 3.5.3 URL队列的获得32-34
- 3.5.4 避免锤击34
- 3.5.5 网络陷阱34-35
- 3.6 本章小结35-36
- 第4章 新闻搜索引擎分析设计36-50
- 4.1 引擎背景36-38
- 4.1.1 高速列车旅客信息系统36-37
- 4.1.2 短消息传送37-38
- 4.2 设计指导原则38-39
- 4.3 用户功能要求39
- 4.4 系统架构39-40
- 4.4.1 方案选择39-40
- 4.4.2 系统架构40
- 4.5 后台设计40-45
- 4.5.1 搜索步骤41-42
- 4.5.2 功能模块42-43
- 4.5.3 具体实现思路43-45
- 4.6 前台设计45-46
- 4.6.1 前台程序实现45-46
- 4.6.2 数据的更新46
- 4.7 数据库设计46-49
- 4.7.1 数据库需求分析47
- 4.7.2 数据库概念结构设计47-48
- 4.7.3 数据库逻辑结构设计48-49
- 4.8 本章小结49-50
- 第5章 新闻搜索引擎的实现50-68
- 5.1 运行环境50
- 5.2 软件开发环境50-51
- 5.3 系统详细设计51-59
- 5.3.1 URL收集器(UrlGather)51-53
- 5.3.2 新闻收集器(NewsGather)53-54
- 5.3.3 网页文本获取器(fetch)54
- 5.3.4 网页分析器(Hparser)54-56
- 5.3.5 数据库处理56
- 5.3.6 Collect_Resule类56
- 5.3.7 线程池56-57
- 5.3.8 GatherApp类57-58
- 5.3.9 其他输入输出文件58-59
- 5.3.10 前台程序实现59
- 5.4 程序运行相关界面59-64
- 5.5 新闻搜索引擎的评测64-65
- 5.5.1 评测方法64
- 5.5.2 系统评测64-65
- 5.6 新闻搜索引擎运行环境65-66
- 5.6.1 结构模式65-66
- 5.6.2 必备软件环境66
- 5.6.3 硬件环境66
- 5.7 网站新闻短消息定制服务与本新闻搜索引擎的比较66-67
- 5.8 本章总结67-68
- 总结68-70
- 致谢70-71
- 参考文献71-76
- 攻读硕士学位期间发表的论文76
全文下载:
CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
|
|
|
|
| 1 |
孙莉苹,张永奎;网上信息检索中BOT站点爬行方法[J];电脑开发与应用;2001年10期 |
| 2 |
康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期 |
| 3 |
陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期 |
| 4 |
张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期 |
| 5 |
阳爱民,杨岳湘,瞿国平;网络机器人的分布性和可控性设计及研究[J];计算机工程;2000年06期 |
| 6 |
刘向辉,尚振宏,胡建华;新一代Web搜索引擎中数据的抽取[J];昆明理工大学学报;2000年03期 |
| 7 |
丁国良,王嘉祯;专题式Web信息检索系统的设计与实现[J];军械工程学院学报;2000年01期 |
| 8 |
何凌云,孙恒,王命延;Web信息自动搜索系统的设计与研究[J];计算机与现代化;2002年06期 |
| 9 |
阳小华;WWW信息收集的ROBOT技术[J];计算机应用研究;2000年04期 |
| 10 |
冯天飞,施法中,王瑛;基于Web的新闻自动发布系统的设计和实现[J];计算机应用;2001年03期 |
|
|
|
|
|
| 1 |
王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期 |
| 2 |
卢世光,丁方忠;搜索引擎使用技术回顾和发展趋势探讨[J];广东通信技术;1999年05期 |
| 3 |
阳小华;周龙骧;;World Wide Web的索引与查询技术[J];计算机科学;1997年06期 |
| 4 |
顾韵华,龚俭;电子新闻管理系统的研究[J];计算机应用与软件;2000年08期 |
| 5 |
张德;董逸生;;自适应Web站点:挑战与机遇[J];计算机科学;2000年07期 |
| 6 |
韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期 |
| 7 |
张朝晖,陆玉昌,张钹;利用神经网络发现分类规则[J];计算机学报;1999年01期 |
| 8 |
林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期 |
| 9 |
王利强,唐常杰,于中华,何雪梅;基于Web的数据采掘[J];计算机应用;1998年10期 |
| 10 |
蒋澄,马范援,蒋思杰;中英文WWW搜索引擎的信息处理[J];计算机工程;1999年04期 |
|