收藏本站
《苏州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于最大熵模型的中文网页分类器设计和实现

杨芹  
【摘要】:互联网的迅猛发展导致了网络中的信息成指数级增长,如何高效处理这些网页信息成一个重要的研究课题。 本文通过对网页预处理、网页分类算法等方面的研究,设计和实现一个基于最大熵模型的中文网页分类器。 首先,介绍了中文网页分类技术的研究背景,重点对目前常用的分类算法进行了分析和比较。 其次,本文结合网页的半结构化特性,提取网页的结构特征,对网页内容进行初步的信息抽取,将网页表示成网页特征向量,并对使用不同特征组合的分类性能进行了对比实验。 最后,本文将最大熵方法应用到网页分类中,提出了基于最大熵的中文网页分类器的基本框架。并将最大熵方法与其它常用的网页分类方法进行了性能比较,实验结果表明,这种方法在召回率、正确率、F1值、错误率等方面表现出了良好的性能。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前8条
1 杜益鸟,宋自林,李德毅;基于云模型的关联规则挖掘方法[J];解放军理工大学学报(自然科学版);2000年01期
2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
3 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
4 韦小丽;孙涌;张书奎;苗艳军;;基于最大熵模型的本体概念获取方法[J];计算机工程;2009年24期
5 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
6 丁宝琼;谢远平;吴琼;;基于改进DOM树的网页去噪声方法[J];计算机应用;2009年S1期
7 刘鹏;姚正;尹俊杰;;一种有效的C4.5改进模型[J];清华大学学报(自然科学版);2006年S1期
8 黄臻臻;吴扬扬;;基于体裁的中文网页分类的特征选取[J];计算机工程与设计;2007年11期
中国硕士学位论文全文数据库 前2条
1 李军辉;中文邮件语料库建设[D];苏州大学;2006年
2 苑昆峰;面向Web个性化服务的网页分类技术[D];重庆大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 陈富春;基于XML的ASP.NET的开发与应用[J];安徽工程科技学院学报(自然科学版);2004年03期
3 张继美;桂红兵;;R-C4.5决策树模型在高职就业分析中的应用[J];信息安全与技术;2011年07期
4 林继成;Web Compnent与动态数据发布[J];安庆师范学院学报(自然科学版);2002年04期
5 刘跃军;苏静;;一种数据分发系统的设计与实现[J];安阳工学院学报;2008年06期
6 都云程;周伟;韩艳铧;吕学强;;基于字同现频率的关键词自动抽取[J];北京信息科技大学学报(自然科学版);2011年06期
7 刘桂山,卢壮;XML和新一代电子商务平台[J];北京理工大学学报;2002年04期
8 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
9 杨文安,陈行益;“元数据模型”在数据提取中的实现[J];吉林大学学报(信息科学版);2005年01期
10 罗胜;张保明;郭海涛;;基于云模型的影像地图质量综合评估[J];测绘科学;2008年03期
中国重要会议论文全文数据库 前10条
1 游文杰;;用Javascript实现XML文档数据检索[A];福建师大福清分校2003年会议论文汇编[C];2003年
2 闵阳;刘建华;;基于XML的分布式WebGIS模型研究[A];全国测绘科技信息网中南分网第二十一次学术信息交流会论文集[C];2007年
3 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
4 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
3 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
4 牟峰;铁路车站取送车系统优化理论与方法研究[D];西南交通大学;2010年
5 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
6 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
7 叶志宝;支持企业业务过程持续改善的应用系统开发方法[D];中国科学院研究生院(软件研究所);2002年
8 许兆新;基于元知识的数据挖掘系统研究[D];哈尔滨工程大学;2003年
9 王涛;广义产品建模方法的研究[D];清华大学;2004年
10 余建桥;基于云理论与数据场的空间孤立点挖掘研究[D];西南农业大学;2005年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 葛秘蕾;基于云理论的图像分割技术研究[D];哈尔滨工程大学;2010年
4 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
5 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
6 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
7 解荟霖;基于分布式数据集成技术的校园综合管理系统设计[D];中国海洋大学;2010年
8 董爱平;信息隐藏技术在组态软件中的应用研究[D];苏州大学;2010年
9 张睿;ID3决策树算法分析与改进[D];兰州大学;2010年
10 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张红云,石阳,马垣;数据挖掘中聚类算法比较研究[J];鞍山钢铁学院学报;2001年05期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
4 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
5 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
6 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
7 李德毅,孟海军,史雪梅;隶属云和隶属云发生器[J];计算机研究与发展;1995年06期
8 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
9 刘志刚,李德仁,秦前清,史文中;支持向量机在多类分类问题中的推广[J];计算机工程与应用;2004年07期
10 张树瑜,朱仲英;基于MT决策树的Web信息抽取研究[J];计算机工程与应用;2004年13期
中国博士学位论文全文数据库 前3条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前3条
1 龚银玲;重庆大学专业课过渡式双语教学研究[D];重庆大学;2004年
2 方鸷飞;中文文本体裁的自动分类机制[D];大连理工大学;2005年
3 周志军;中文邮件分类系统的研究及其实现[D];苏州大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 贺兴时;杨成成;;基于最大熵的文本分类算法的改进[J];西安石油大学学报(自然科学版);2009年06期
2 陈光;刘宗田;;基于特征聚合与最大熵的文本分类算法[J];计算机应用与软件;2008年03期
3 祁瑞华;杨德礼;胡润波;;基于特征缺失补偿最大熵模型的文本分类[J];情报杂志;2010年05期
4 蔡晓白;樊孝忠;;疾病命名短语识别的最大熵方法[J];北京理工大学学报;2006年06期
5 郝晓燕;常晓明;;中文文本分类研究[J];太原理工大学学报;2006年06期
6 张健;陈松乔;;一种基于最大熵原理系统异常检测模型研究[J];小型微型计算机系统;2008年04期
7 贾宁;张全;;基于最大熵模型的中文姓名识别[J];计算机工程;2007年09期
8 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
9 雷春雅;郭剑毅;余正涛;毛存礼;张少敏;黄甫;;基于自扩展与最大熵的领域实体关系自动抽取[J];山东大学学报(工学版);2010年05期
10 吴月萍;;基于最大熵方法的评论信息抽取方法[J];上海第二工业大学学报;2010年03期
中国重要会议论文全文数据库 前10条
1 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
2 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
8 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
9 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
10 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
中国重要报纸全文数据库 前10条
1 陈翔;趋势科技:近十万中文网页遭入侵[N];中国计算机报;2008年
2 黄明;精子分类器决定生男生女[N];广东科技报;2000年
3 洪达;雅虎中国尝鲜“宝贝鱼”[N];民营经济报;2006年
4 本报记者 侯继勇 刘涓涓;百度解密:李彦宏背后的蜘蛛侠[N];21世纪经济报道;2005年
5 李彦宏;让中文在网络世界影响更大[N];人民日报;2006年
6 记者 史芳;雅虎搜索出山了[N];中国经济导报;2005年
7 赵明;张朝阳,从眼球回到技术[N];中国经济时报;2006年
8 赵垒;中文搜索引擎再点硝烟[N];中华工商时报;2006年
9 天津 武金刚;豆仔热线[N];电脑报;2003年
10 本报记者 关桂峰;“人立方”红遍互联网 勿成恶搞助推器[N];经济参考报;2008年
中国博士学位论文全文数据库 前10条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
3 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
4 谢元澄;分类器集成研究[D];南京理工大学;2009年
5 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
6 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
7 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
8 秦莉娟;基于内容的自动视频监控研究[D];浙江大学;2006年
9 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
10 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
2 梅灿华;基于最大熵模型的迁移学习算法研究[D];合肥工业大学;2011年
3 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
4 刘娇;排序学习中的中文网页特征提取方法[D];哈尔滨工业大学;2009年
5 吴中勤;英文多文档查询型自动文摘研究[D];复旦大学;2008年
6 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 刘欣;基于结构信息的中文网页自动分类技术研究[D];南京航空航天大学;2010年
9 孙昂;基于句法分析和机器学习的中文自动问答系统研究[D];清华大学;2007年
10 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026