收藏本站
《上海交通大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基类目网络和URL模式树的网页分类方法探究

赖龙彬  
【摘要】:分类是信息检索中的一个重要问题,而网页分类对于提高互联网服务质量尤其意义重大。诸多互联网上的关键应用包括站点目录、搜索引擎、网页爬虫、推荐系统、用户行为分析系统和广告投放系统无不依赖于高效而准确的页面分类来提高服务质量。针对这些应用中涉及到的分类问题,有许多分类方法相继被提出,其中包括基于页面内容的文本分类方法。基于页面内容的分类方法依赖于正文质量,如果正文质量太差,或者文本长度太短,会导致分类性能的下降。随着一些大规模词典和类目体系的建立,基于第三方词库的分类方法引起了广泛的关注。第三方词库可以提供现成的语义类目,一方面可以作为辅助信息增强语义识别能力,提高分类的精度;另一方面可以直接用于分类,这样的分类方式能从一定程度上解决短文本的分类缺陷,并且不需要依靠训练集,能高效地进行分类。 本文的分类建立在全网环境,全网环境数据结构复杂、噪声多、干扰强,使用传统的分类方法,一方面如果文本质量太差,会大大影响分类的准确率;另一方面,全网数据量庞大,使用传统分类方法势必要通过引入大量训练集来训练分类模型,可能无法进行高效地分类。本文提出了一种基于维基网络的主题分类模型,词汇量和语义都极其丰富的维基类目网络涵盖了大量词汇,并且维基百科是在线实时编辑系统,很多词汇甚至能“与时俱进”,从而对全网范围的词汇有较好的覆盖。另外,这种分类方法不需要依赖训练集来训练模型,只要完成了维基网络的类目关联就可以用于分类预测。同时,尽管维基类目词汇实时变化,但是整个类目体系相对比较稳定,从而本方法可以在长时间内保持有效。我们在实验阶段对比了传统的基于页面内容的分类方法,证明本方案的可行性。 另外,本文还创新性地提出了基于URL模式树的站点功能分类方法,基于URL模式树的功能分类借鉴了自然语言处理的语法树核函数(Tree Kernel)的方法,构造了URL语法规则和URL语法树,并通过改进的Tree Kernel来进行站点功能的分类。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【共引文献】
中国期刊全文数据库 前1条
1 高辉;王沙沙;傅彦;;Web舆情的长期趋势预测方法[J];电子科技大学学报;2011年03期
中国硕士学位论文全文数据库 前2条
1 何世柱;文本分类和聚类若干模型的研究[D];江西师范大学;2011年
2 邱强;基于关键词的文本分类研究[D];西北农林科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 吴爱华,张谧,乔健,汪卫,施伯乐;使用模式树和物化视图进行XML查询[J];计算机工程;2004年15期
2 陈海涛,胡华平,张怡,龚正虎;网络入侵检测中高效散列模式树算法的研究[J];计算机工程与科学;2002年05期
3 郭有限;张东站;;基于模式树的XETL过程研究[J];计算机工程;2009年10期
4 战立强;刘大昕;;基于概念格的频繁闭项集增量挖掘算法研究[J];哈尔滨工程大学学报;2007年02期
5 吕娜;;GIS数据库模式匹配技术研究[J];甘肃科技;2010年10期
6 战立强;刘大昕;张健沛;;一种基于模式树的频繁项集快速挖掘算法[J];计算机工程与应用;2007年11期
7 赵元;马劲松;;GML模式匹配技术研究[J];计算机工程与科学;2009年07期
8 戴华;李乔良;;一种有效的多模式并行匹配算法[J];电脑知识与技术(学术交流);2007年05期
9 刘春霞;;PatternMatch算法的研究与探讨[J];科技信息;2008年27期
10 李元益;用于XML模式和DTD设计的层次分解[J];计算机工程;2005年03期
中国重要会议论文全文数据库 前10条
1 廖雨果;冯建华;钱乾;李国良;塔娜;;XPath片断的包含与等价关系的判定[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 江苏苏;陈永年;;SSDB数据模式的实现和维护[A];第九届全国数据库学术会议论文集(下)[C];1990年
3 乔健;陈彤兵;汪卫;施伯乐;;一种基于结构索引的XML模式匹配方法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 冯玉才;刘玉葆;冯剑琳;;半结构化数据中模式的交互式开采[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 史晶蕊;赵文兵;郑玉明;廖湖声;;扩充E/R图到XML模式转换的研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 赵文兵;杨冬青;廖湖声;;关键字在XML模式中的结构特征研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 凌波;吴永辉;;XML模式中隐式冗余不存在的充分条件[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
9 侯整风;张晓乐;韩江洪;樊玉琦;;AC-BM算法的研究与改进[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
10 吴清茂;姜明霞;汪卫;施伯乐;杨根兴;刘振宇;;XML中集合包含查询的处理[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前6条
1 尹俊新 孙永丹;特色模式树品牌 校院合作创示范[N];天津日报;2011年
2 庞引明;XML数据库:最新进展和发展方向[N];计算机世界;2004年
3 郑小玲;最具创意的招聘[N];消费日报;2004年
4 ;三年后可用“基因”改良树木性状[N];科技日报;2002年
5 韦桂华;第三营销模式 能为彩电业趟出一条路吗[N];中国企业报;2001年
6 李登文;枣强质监局“三零”服务模式树良好窗口形象[N];衡水日报;2011年
中国博士学位论文全文数据库 前9条
1 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
2 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年
3 邓娜;BPEL流程生命周期中若干关键问题研究[D];北京邮电大学;2011年
4 何杰;多版本开放式地球空间网络服务统一访问方法研究[D];武汉大学;2010年
5 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
6 吕明琪;基于轨迹数据挖掘的语义化位置感知计算研究[D];浙江大学;2012年
7 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
8 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
9 肖波;可信关联规则挖掘算法研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 罗盼;基于模式树的XML数据库多粒度封锁机制研究[D];武汉科技大学;2012年
2 郑乃惠;基于XML结构性约束的模式树查询最小化[D];山东大学;2009年
3 赖龙彬;基于维基类目网络和URL模式树的网页分类方法探究[D];上海交通大学;2013年
4 甘杨兰;面向高维数据的子空间聚类算法研究[D];合肥工业大学;2007年
5 蒋艳;基于XQuery的XML查询平台研究与设计[D];河海大学;2006年
6 朱秀云;基于Web挖掘技术研究及其在数字图书馆中的应用[D];辽宁科技大学;2012年
7 肖芳桥;基于模式的XML索引技术研究[D];山东大学;2010年
8 舒银东;基于有限状态自动机的多模式匹配算法研究[D];合肥工业大学;2011年
9 刘远超;通信网告警相关性应用的研究[D];天津理工大学;2012年
10 廉飚;共现行为的周期性探测与研究[D];太原理工大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026