收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本自动分类中的关键问题研究

薛德军  
【摘要】:1.建设了一个大规模中文数据集,包含55类,71674篇文本。基于多项式贝叶斯分类器中,比较了汉字Unigram和Bigram特征在文本分类中的作用。Bigram的最优F1值比Unigram高7.7%,也优于它们的组合方式。 2.提出了特征的分类能力和描述能力的概念。分类能力保证了分类器能将文本按类型分开,描述能力保证了分类是基于文本内容的。将特征分为强信息特征、弱信息特征和不相关特征三类。提出了特征选择方法 ,它在特征的分类能力和描述能力之间取得较好的平衡。同样选择70000个特征时,它的F1值比 提高3.1%,比 提高5.8%。 3.发现特征集中存在大量高度重叠特征和高度偏差特征。提出将高度重叠的Bigram特征提升到对应的Trigram特征的降维方法 。提出直接删除高度偏差特征的 方法和将高度偏差特征用重要字符替代的 方法。在 特征选择的基础上, 的降维度达到6.2%, 达到11%时不损失分类效果。组合四种降维方法,提出了多步降维策略,其中 和 合在一起的降维度达到26.7%时,保持分类效果不下降。 4.在两个相反方向上对特征权重计算进行了研究。一是往复杂方向走,将 与 结合,提出了特征权重计算方法 ;提出了统计量 ,并与 、 结合,提出了方法 。在 选择的70000特征集上, 和 的F1值比传统的 提高5.7%,在 选择的特征集上提高3%。二是往简单方向走,提出了依赖大特征集的二元权重方法 ,进一步提出BW+数值平滑权重方法BW-NWS,解决了 中的分类不确定问题。BW-NWS方法显著改善了分类效果,而且与数值平滑权重方法的复杂性无关。在 选择的70000特征集上,BW-NWS的F1达到97.7%,比 提高16.6%。 5.研究了词特征在文本分类中的作用,并与Bigram进行了比较。基于Bigram的结论也适用于词特征。Bigram特征的分类效果优于词特征。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期
2 康进峰;王国营;梁春迎;谭晓贞;;用于色情网页过滤中的KNN算法改进[J];计算机安全;2009年09期
3 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
4 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
5 张翔;周明全;耿国华;;基于粗糙集的中文文本特征选择方法研究[J];计算机应用与软件;2010年03期
6 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
7 王晓微;;两种分类方法特征选择的比较[J];电子技术;2007年Z3期
8 魏晓宁;朱巧明;;基于Nave Bayes模型的垃圾邮件过滤方法[J];南通大学学报(自然科学版);2008年01期
9 符发;;中文文本分类中特征选择方法的比较[J];现代计算机(专业版);2008年06期
10 田卫新;郑胜;;一种基于特征选择的主观性文本分析方法[J];计算机系统应用;2011年08期
11 杨经;林世平;;基于SVM的文本词句情感分析[J];计算机应用与软件;2011年09期
12 杨奋强;刘玉贵;;文本分类中基于类别概念的特征选择方法[J];计算机系统应用;2009年10期
13 陈艳秋;熊耀华;;新型快速中文文本分类器的设计与实现[J];计算机工程与应用;2009年22期
14 陈立伟;井志强;葛秘蕾;;基于特征项扩展的中文文本分类方法[J];应用科技;2010年03期
15 王素格;李伟;;面向中日关系论坛的情感分类问题研究[J];计算机工程与应用;2007年32期
16 杜琳娜;闫光辉;杨霞霞;刘利松;;一种改进的KNN中文文本分类算法[J];软件导刊;2010年02期
17 王素格;魏英杰;;停用词表对中文文本情感分类的影响[J];情报学报;2008年02期
18 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
19 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
20 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
中国重要会议论文全文数据库 前10条
1 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
2 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
3 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
5 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
6 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
8 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
10 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
3 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
4 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
5 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
8 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
9 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
10 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
2 孙国欣;基于主动学习的中文文本分类[D];兰州大学;2006年
3 李淑鹏;基于神经网络的文本自动分类系统的研究[D];武汉理工大学;2008年
4 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
5 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
6 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
7 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
8 许林杰;中文文本分词研究[D];山东师范大学;2003年
9 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
10 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 周晓娟;TD已过分水岭[N];通信产业报;2008年
3 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
4 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
5 ;健康、成本兼顾[N];中国计算机报;2004年
6 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
7 通讯员 彭云 袁龙刚;袁仁国荣膺改革开放30年酒界领军人物[N];经理日报;2009年
8 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
9 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
10 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978