收藏本站
《华中科技大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

中文网页定题采集及分类研究

宗校军  
【摘要】: 网络正深刻地改变着我们的生活,Internet已经发展成为当今世界上最大的信息库,如何快速、准确地从浩瀚的信息资源中寻找到所需的信息已经成为网络用户的一大难题。因而基于Web的网上信息的采集和相关的信息处理日益成为人们关注的焦点。 传统的Web信息采集所采集的页面数量过于庞大,所采集页面的内容过于杂乱,需要消耗非常大的系统资源和网络资源。同时Internet信息的分散状态和动态变化也是困扰着信息采集的问题。定题搜索引擎将信息检索限定在特定主题领域,就主题相关的信息提供检索服务,相应特定主题所需采集的网页数量极大减少且主题统一。与通用的搜索引擎相比较,定题搜索引擎由于检索的范围较小,查准率和查全率易于保证。本文所研究的就是建立定题搜索引擎的前期关键技术—Web信息定题采集及分类技术。全文的主要内容如下: 通过对Web结构和Web链接特性的研究,分析了一些在定题Web信息采集过程中有用的规律。对元数据进行定义,讨论了几种基本的超链及其元数据类型。研究了网页信息抽取问题,分析了常见类型的元数据并确定了适合作为定题信息采集依据的元数据类型。 讨论了如何基于元数据通过主题扩展得到主题相关词集,包括禁用词过滤、主题候选词的抽取及相关策略过滤等过程。重点研究了利用改进的Apriori算法,对元数据库进行关联挖掘抽取主题候选词,并给出了主题词关联挖掘和过滤,即主题扩展的迭代算法。实验证明,本文所提供的元数据处理策略,能很好地进行主题的抽取与扩展,为实现更有效的定题Web信息采集提供良好前提。 给出了一个基于Web元数据的定题信息采集系统并加以描述。对经典的基于超链分析的相关性判别算法HITS和PageRank进行了描述和分析,给出了基于Web元数据的多种相关性判别算法,并利用Web元数据对HITS和PageRank算法进行了改进,提出了M-PageRank算法和M-HITS算法。测试了各种算法的性能并作了比较研究,实验验证了所提出的算法能为实现定题检索提供良好前提。 讨论了文本分类的基础及Web网页在文本分类中的特性和特殊处理,将HTML文档用TFE表示,考虑半结构文档词条所处结构对分类的影响,修正了反映特征词在网页中的权重函数,引入扩展文本作为网页分类的内容补充。研究了既考虑文档结构又兼顾文档内容的改进的朴素贝叶斯和支持向量机Web网页分类方法,并通过实验验证了两种分类方法的良好效果。 通过对Web定题采集和分类的研究,本文从技术和方法上做出了一些增强及改进,提出的方法及改进的算法取得了较好的实验效果,所得到的若干结论也具有理论和实践上的指导意义。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 秦永平;网页信息共享技术[J];计算机应用;2000年02期
2 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
3 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
4 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
5 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
6 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
7 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
8 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
9 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
10 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
11 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
12 任国庆;;“计算机网页设计”课程体系分析及课程整合[J];计算机教育;2006年10期
13 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
14 徐辉;李建军;;网页设计的“美”与“技术”[J];安徽电子信息职业技术学院学报;2006年06期
15 魏娜;;浅谈网页艺术设计[J];新课程研究(职业教育);2007年09期
16 巫满秀;;浅谈网页信息的保存技巧[J];福建电脑;2007年07期
17 吕英杰;叶强;李一军;;模糊综合评判理论在网页自动分类中的应用[J];计算机工程;2007年15期
18 范春萍;;浅谈网页中的艺术设计[J];世纪桥;2007年08期
19 杨丽丽;;色彩在网页设计中的协调与应用[J];中国科技信息;2007年23期
20 武明煜;魏静;;浅议网页艺术设计之构成要素[J];科技信息(学术研究);2007年31期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
8 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
9 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
10 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978