收藏本站
《北京交通大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于判别式学习和组合分类器的Web文本分类技术

张颜锋  
【摘要】: 如何从丰富的网络信息资源中发现有价值的利用信息,是目前一个非常迫切需要解决的问题,网页自动分类是解决这一问题的一项关键技术,对信息检索、信息过滤、主动化个性化的服务提供等等的发展来讲很有应用价值。 在众多的网页文本分类算法中,朴素贝叶斯方法因为具有简单、容易实现、工作效率高、非常适合在线处理等优点而被广泛应用,但是其分类正确率有待提高。本文以朴素贝叶斯算法为基础,研究如何提高网页文本分类的精度,本文的主要工作有: (1)本文研究了判别式贝叶斯网络学习算法,将一种以数据的经验分布和真实分布之间的K-L距离为目标优化函数的判别式的朴素贝叶斯参数学习算法引入中文文本分类,同时考虑了数据类别之间的关系,将判别式参数学习算法和层次分类相结合,提出一种基于K-L距离的判别式朴素贝叶斯层次文本分类方法。在本文的中文网页数据集上的实验结果证明,基于K-L距离的判别式朴素贝叶斯层次文本分类方法确实能够得到较好的分类效果。 (2)本文以多种形式表示网页,将网页按照自身结构进行划分,每个结构元素单独训练一个子文本分类器,通过多种组合原则对子分类器的结果进行组合以组合分类器的方法进行网页分类。实验证明,组合文本分类器的方法是切实可行的,无论是平面分类还是层次分类,组合后的分类器都比组合前分类效果好;在本文使用的四种组合原则中,按照独立性原则和最大原则进行组合的方法比多数原则和加权求和的方法表现更佳。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
2 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期
3 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
4 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
5 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
6 唐洋运;李荣陆;胡运发;;使用层次结构改善平面文本分类器的性能[J];计算机应用与软件;2007年01期
7 季桂树;陈沛玲;宋航;;决策树分类算法研究综述[J];科技广场;2007年01期
8 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
9 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
10 侯汉清;;分类法的发展趋势简论[J];情报科学;1981年01期
中国硕士学位论文全文数据库 前1条
1 侯小静;贝叶斯分类器研究及其在Web文档分类中的应用[D];郑州大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
5 李淑华;徐良培;陶建平;;基于支持向量机的我国水产品出口贸易风险预警研究[J];安徽农业科学;2008年30期
6 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
7 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
8 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
9 赵万明;黄彦全;谌贵辉;;基于支持向量机的农村用电量需求预测[J];安徽农业科学;2009年25期
10 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
5 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
6 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
7 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
8 康传会;汪晓东;汪轲;常健丽;;基于最小二乘支持向量机的迟滞建模方法[A];第二十九届中国控制会议论文集[C];2010年
9 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
10 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
中国博士学位论文全文数据库 前10条
1 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
6 李晚龙;六自由度Stewart平台分散智能控制研究[D];哈尔滨工程大学;2010年
7 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
8 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
9 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
10 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 徐芳芳;优化问题的PVD算法研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
7 李海清;支持向量机在金融市场预测中的应用[D];辽宁师范大学;2010年
8 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
9 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
10 李会臣;基于时频分析的齿轮故障机理及诊断研究[D];郑州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
2 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
3 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 欧阳为民,蔡庆生;基于版本空间的并行概念学习[J];计算机研究与发展;1998年10期
6 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
7 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
8 王爱华,张铭,杨冬青,唐世渭;基于Boost和信任函数的多文本分类器组合模型[J];计算机工程与应用;2002年02期
9 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
10 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
【相似文献】
中国期刊全文数据库 前10条
1 郑炜;沈文;张英鹏;;基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J];西北工业大学学报;2010年04期
2 李毅;顾健;顾铁军;;基于朴素贝叶斯方法的邮件样本预筛选[J];信息网络安全;2010年10期
3 张阳,张利军,闫剑锋,李战怀;基于关联特征的朴素贝叶斯文本分类器[J];西北工业大学学报;2004年04期
4 徐杰,施鹏飞;图像检索中基于标记与未标记样本的主动学习算法[J];上海交通大学学报;2004年12期
5 廖明涛;张德运;李金库;;基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法[J];微电子学与计算机;2007年08期
6 金展;范晶;陈峰;徐从富;;基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统[J];计算机应用;2008年03期
7 白耀辉;陈明;王举群;;利用朴素贝叶斯方法实现异常检测[J];计算机工程与应用;2005年34期
8 任喜峰;;基于朴素贝叶斯分类的考试成绩监测机制的研究[J];科技信息;2007年01期
9 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
10 陈琳;邓万宇;;差分进化贝叶斯分类器[J];微处理机;2010年04期
中国重要会议论文全文数据库 前10条
1 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
3 周毅;江云亮;张铭;熊宇红;冯是聪;;基于“链接”层次分类的主题爬取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 张阳;李战怀;卢维扬;;通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 李海军;王钲旋;王利民;苑森淼;;基于贝叶斯网络的回归树学习算法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 蒋盛益;谢照青;余雯;;基于代价敏感的朴素贝叶斯不平衡数据分类研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
7 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
8 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 徐昉;宗成庆;;汉语base NP识别:错误驱动的组合分类器方法[A];第三届学生计算语言学研讨会论文集[C];2006年
10 李晓波;;集成分类对比:Bagging NB & Boosting NB[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 特约记者 张勇;魅力荣州焕新颜[N];自贡日报;2009年
2 华中科技大学社会信息科学研究中心 陈少华;陈少华:社区信息化应坚持整体性规划和多元化建设[N];通信信息报;2007年
3 关世春;宁夏干部交流分层次分类别推进[N];中国人事报;2005年
4 樊华山;确立以人为本理念 推动地税跨越发展[N];江苏经济报;2006年
5 记者 杨晓冬;六百六十九万人去年通过人才市场成功求职[N];中国人事报;2006年
6 本报记者  唐昆;工行“整容”“换脑”齐步走[N];上海证券报;2006年
7 本版编辑尹志权 王建平 孙志银 郑春泽;争当实践科学发展观的排头兵[N];中国劳动保障报;2008年
8 鲁宁;平抑药价的路径选择[N];21世纪经济报道;2003年
9 记者  陈宝泉;产学研结合培养学生创新精神[N];中国教育报;2006年
10 本报记者  戴谦;西海岸建起“立体化人才市场”[N];青岛日报;2006年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 董立岩;贝叶斯网络应用基础研究[D];吉林大学;2007年
3 高景刚;新疆北部主要斑岩铜矿带成矿条件及遥感找矿定位研究[D];长安大学;2008年
4 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
5 王勇;WEB数据挖掘研究[D];西北工业大学;2006年
6 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
7 袁时金;信任管理关键技术研究[D];复旦大学;2005年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
10 许言午;面向行人检测的组合分类计算模型与应用研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 张颜锋;基于判别式学习和组合分类器的Web文本分类技术[D];北京交通大学;2008年
2 胡为成;基于遗传算法的朴素贝叶斯分类研究[D];合肥工业大学;2006年
3 禤毅良;电子商务智能推荐系统研究[D];广东工业大学;2004年
4 曾红伟;摘录式单文档中文自动文摘系统的研究与实现[D];华东师范大学;2009年
5 李光;朴素贝叶斯分类器预测拟南芥蛋白质相互作用及蛋白质功能注释[D];东北林业大学;2008年
6 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
7 郭亚光;基于粗糙集合和朴素贝叶斯模型的分类问题研究[D];合肥工业大学;2005年
8 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
9 王峻;朴素贝叶斯分类模型的研究与应用[D];合肥工业大学;2006年
10 林炼;基于网络处理器的垃圾邮件过滤系统[D];厦门大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026