主题搜索与Web挖掘的研究及系统实现
【摘要】:随着因特网的快速发展,海量的Web数据资源已经成为人们获取信息的重要来源。Web信息的日益增长使得人们很难快速准确的找到自己所需的信息,搜索引擎随之成为人们最普遍使用的信息检索的工具。但是,目前大多数的搜索引擎提供的服务还不能令用户满意。由于Web资源具有半结构性、离散性、实时性和异构性等特点,如何对Web资源进行挖掘分析,获取真正有价值的信息,并向用户提供便利的可定制的信息服务,已经成为一项重要的研究课题。
本论文的研究内容是主题搜索与Web挖掘。在设计实现主题搜索系统BlueSpider的基础上,重点讨论了主题搜索以及Web挖掘的核心技术。本文的主要工作研究如下:
主题网络爬虫:分析了现有的主题爬虫搜索算法,改进了以往的搜索策略,提出了一种基于非贪婪策略的搜索算法。
网页内容提取:采用遍历HTML文档树获取相应网页内容的方法,从而能够快速、灵活、有效的获取网页中的信息。
Web文档分析:根据Web文档所特有的半结构化及编码不统一等特点,提出了相应的分析方法,包括编码转换、分词、建立特征向量等,并根据Web文档的特点改进了特征权重的计算方法。
另外,针对主题搜索所需的网页及URL主题相关度判定,给出了相应的方法,并提出了一种新的Web文档聚类算法以便对Web文档进行挖掘分析。
在以上研究成果的基础上,本文描述了BlueSpider系统的设计实现细节。
|
|
|
|
1 |
李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期 |
2 |
宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期 |
3 |
王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期 |
4 |
邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期 |
5 |
刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期 |
6 |
高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期 |
7 |
王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期 |
8 |
李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期 |
9 |
刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期 |
10 |
武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期 |
11 |
梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期 |
12 |
张睿光,黄玉超;基于ASP技术的气象信息系统软件设计[J];河南气象;2000年01期 |
13 |
张少敏,王保义;基于Web的管理信息系统方案及其安全性[J];华北电力大学学报;2001年01期 |
14 |
贺文,顾训穰;基于Web的客户端电子邮件系统的实现[J];计算机工程与应用;2001年08期 |
15 |
刘国华,包宏,李文超;基于WEB的人工神经网络材料设计系统[J];计算机工程与应用;2001年20期 |
16 |
冯晓君,李也白;构建Internet环境下的CAI课件数据库系统[J];计算机应用;2001年03期 |
17 |
陈扬枝,张见威;基于Web的机械设计材料库系统[J];现代制造工程;2001年12期 |
18 |
沈祥玖,李作纬,宋义发,尹涛;利用ASP实现对Web数据库的访问[J];济南交通高等专科学校学报;2001年02期 |
19 |
张静芳,陶跃军;刍议《中文期刊数据库》Web版全文检索系统[J];图书馆学研究;2001年02期 |
20 |
曹向东,邓毅华,李斯伟;一种网络化教学信息管理系统的开发与设计[J];中国数据通信;2001年03期 |
|