收藏本站
《复旦大学》 2005年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类及其相关技术研究

李荣陆  
【摘要】:随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。 本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。同时,对文本分类技术的一个新的研究方向——文本流派分类,文本分类的一个重要应用领域——文本信息过滤,进行了研究。本文研究内容和创新工作主要包括以下五点。 (1)训练样本的选择 训练样本的选择对分类器的创建非常重要,非典型样本不仅增加了分类器的训练时间,而且容易给训练样本集中引入一些“噪声”。论文针对KNN这种常用的文本分类方法,分析了什么是它的典型样本,提出了一种基于密度的样本选择算法。根据样本ε邻域内的样本数目估计样本周围的密度,根据样本ε邻域内不同类别样本的数目确定类别之间的边界。裁剪高密度区域的样本,减少非典型样本的数量。同时,尽量保留类别边界部分的样本,以保证分类器的准确性。 (2)基于最大熵模型的中文文本分类研究 中文本文分类和英文文本分类有许多不同之处,文本特征的提取方式、稀疏程度都有所不同,所以分类结果亦有所不同。对于最大熵模型来说尤为不同,因为汉语的熵高于英语。论文从中文文本特征的生成方法入手,使用了分词和N-Gram两种文本特征生成方法,使用了绝对折扣技术对特征的概率进行平滑处理,对最大熵模型和Naive Bayes、KNN、SVM三种方法的性能进行了比较分析。在实验中发现最大熵模型的稳定性不够好,所以将Bagging和最大熵模型结合起来,提高了最大熵模型的稳定性。 (3)使用层次分类改善平面分类的性能 不同于以往的层次化分类,论文中使用了一种本质为图的层次结构,利用这种层次结构解决平面分类问题,从而提高平面分类的查准率和查全率。在普通的类别层次结构中,同一父类的兄弟类别之间的混淆关系是对称的,但事实上类别之间的混淆关系不是对称的。论文从分类器的混淆矩阵入手,引入了混淆类别的概念。利用混淆类别构造的类别层次结构,从查准率和查全率的角度来考虑类别之间的关系,表达出了混淆关系的非对称性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 牛洪波;丁华福;;基于文本分类技术的信息过滤方法的研究[J];信息技术;2007年12期
2 姚学礼;;基于内容过滤垃圾邮件综述[J];科技风;2009年11期
3 张阳,李建良,李战怀;一种基于域名的非法网站过滤技术[J];计算机工程与应用;2003年14期
4 邱烨;刘培玉;;基于量子遗传算法的文本特征选择方法研究[J];计算机工程与应用;2008年25期
5 刘茂旺;林世平;;BOOSTING算法在多类多标签文本分类中的应用[J];福建电脑;2006年03期
6 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期
7 侯振兴;;基于Agent的信息过滤中改进的关键词权重算法研究[J];北京电子科技学院学报;2009年02期
8 李桂芳;刘培玉;;一种基于改进遗传算法的文本特征选择方法[J];山东师范大学学报(自然科学版);2007年02期
9 马忠宝;刘冠蓉;;中文文本分类在信息技术中的应用研究[J];中国水运(学术版);2006年02期
10 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
11 李鑫;张黎烁;;文本分类方法比较研究[J];光盘技术;2009年05期
12 魏善岭;傅英亮;鲁明羽;;一种用于互动型不良信息过滤的贝叶斯改进方案[J];广西师范大学学报(自然科学版);2009年03期
13 肖可;奉国和;;1999~2008年国内文本分类研究文献计量分析[J];情报学报;2010年04期
14 邓忠莹;严馨;周历生;王卫东;常彦峰;;基于文本倾向性分类技术的图书评价模型[J];昆明理工大学学报(理工版);2009年04期
15 李东艳;黄鹏鹤;;基于双层规则的内容安全过滤方法[J];大连交通大学学报;2007年03期
16 张洪军;朱振方;;改进的模糊遗传算法及在信息过滤中的应用[J];计算机工程与设计;2009年24期
17 曹建芳;王鸿斌;;基于支持向量机的中文娱乐新闻词语的识别[J];计算机应用与软件;2011年02期
18 赵俊杰;盛剑锋;陶新民;;一种基于特征加权的KNN文本分类算法[J];电脑学习;2010年02期
19 梅海燕;信息过滤问题的研究[J];现代图书情报技术;2002年02期
20 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
中国重要会议论文全文数据库 前10条
1 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
3 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
4 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
9 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
10 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 张玉杰;基于偏斜数据集的中文文本分类问题的改进特征权重算法研究[D];东北师范大学;2010年
2 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
3 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
4 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
5 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
6 闫晨;KNN文本分类研究[D];燕山大学;2010年
7 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
8 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
9 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
10 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 李北陵;谷歌退出无损中国却只贻害自己[N];证券时报;2010年
3 Naomi Fine;信息过滤护驾知识产权[N];计算机世界;2006年
4 记者 耿宇;9品牌空调被指标高能效值[N];消费日报;2006年
5 彭骏孙小宁;澳大利亚启动网络有害信息过滤工程[N];人民邮电;2007年
6 鲁宁;幸福无须“指数”表白[N];证券时报;2006年
7 记者 颜维琦;“绿坝”发行将采用赠送安装盘方式[N];光明日报;2009年
8 国海证券 杨斌;上证50指数缘何最强[N];深圳特区报;2006年
9 卢东祥;校园网防火墙的选购[N];中国电脑教育报;2003年
10 本报记者  吴佳佳;购买节能空调要注意制冷水平[N];经济日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978