收藏本站
《哈尔滨工程大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本自动分类的研究

孙丽华  
【摘要】: 本文较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和支持向量机等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和支持向量机分类器三个中文文本分类器,集成了一个实用性较强的实验系统。 深入地分析了k近邻方法的不足,提出了改进的k近邻方法,提高了分类器的性能。 重点讨论了支持向量机的相关问题。概述了统计学习理论的主要内容,推导了支持向量机方法在文本线性可分、线性不可分和非线性可分情况下实现分类的数学公式,将学习问题转化为一个在等式约束和不等式约束下的凸二次优化问题,总结了求解的过程。针对超大规模文本库的训练与评估问题,采用分解算法,迭代求解,然后利用基于Leave-One-Out技术的ξα评估方法快速有效地计算错误率、准确率、召回率和F_1指标。证明了分解算法的有效性,在实验系统中采取了五种加速训练的措施。采用组合结构实现N个类别的支持向量机多分类器。针对支持向量机多类器中存在的文本漏识问题,采取kNN方法和特征匹配方法进行后处理,对失效文本实施二次分类,改善了多分类器的性能。 实验表明,三种分类器都适合于中文文本分类的需要,其中支持向量机分类器的分类结果稳定,精度高,性能最好。而将k近邻方法和特征匹配方法与支持向量机相结合形成的支持向量机多分类器更加适用于中文文本分类的需要。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
2 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
3 孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期
4 王栋;孙济洲;李福超;;基于半监督支持向量机的并行远同源检测方法[J];计算机应用研究;2009年12期
5 张正阳;须文波;丁彦蕊;;SVM的参数优化及在耐热酶和常温酶分类中的应用[J];食品与生物技术学报;2010年02期
6 王东;吴湘滨;;利用粒子群算法优化SVM分类器的超参数[J];计算机应用;2008年01期
7 朱代辉;陈光鹏;杨育彬;;一种基于经验的分类方法探讨与应用[J];广西师范大学学报(自然科学版);2010年03期
8 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
9 陈蕾,黄贤武,仲兴荣,王加俊;基于支持向量机的运动目标中人脸检测[J];微电子学与计算机;2005年06期
10 周皓;李少洪;;SVM最优分类面相对位置的修正[J];北京航空航天大学学报;2009年11期
11 吴思远;张召;邹洋;;基于2D Gabor小波和HSV空间的木材缺陷检测[J];郑州大学学报(理学版);2010年01期
12 李昆仑;黄厚宽;田盛丰;;一种基于有向无环图的多类SVM分类器[J];模式识别与人工智能;2003年02期
13 唐小力;吕宏伟;;基于SVM的文本多类分类方法研究[J];电脑知识与技术(学术交流);2006年08期
14 王成明;颜云辉;陈世礼;韩英莉;;基于改进支持向量机的冷轧带钢表面缺陷分类识别[J];东北大学学报(自然科学版);2007年03期
15 渐令;龚淑华;王义康;;基于支持向量机的高炉铁水硅含量多类别分类[J];浙江大学学报(理学版);2007年03期
16 王磊;;基于约束投影的支持向量机选择性集成[J];计算机科学;2009年10期
17 胡斌斌;姚明海;;基于SVM的图像分类[J];微计算机信息;2010年01期
18 马慧彬;丛岭;;基于钙化点信息的乳腺病灶类型识别算法[J];电脑与信息技术;2011年03期
19 李俊俊;陆明泉;冯振明;;基于支持向量机的分级调制识别方法[J];清华大学学报(自然科学版);2006年04期
20 权洪波;钱权;;基于SVM的P2P流量识别研究[J];微计算机信息;2010年30期
中国重要会议论文全文数据库 前10条
1 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
2 张国荣;;基于SVM分类算法的电力变压器故障诊断[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
3 王颖;毋立芳;关媛;王涓涓;;基于LBP的SVM人脸姿势估计方法[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
4 龚妙昆;万福永;许建强;袁震东;;心电图小波压缩特征提取及SVM分类分析[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 李烨;蔡云泽;李远贵;张强;;基于属性约简与依赖度分析改进支持向量机性能[A];第二十三届中国控制会议论文集(下册)[C];2004年
6 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
7 申琦;石伟民;梅桢;;基因芯片数据解析算法研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 姚大平;柳庆;陆学祥;;基于支持向量机的货物识别系统的设计与实现[A];天津市电视技术研究会2009年年会论文集(1)[C];2009年
9 孙昌儿;刘秉瀚;;一种新的SVM决策树[A];第十一届中国体视学与图像分析学术会议论文集[C];2006年
10 易辉;宋晓峰;姜斌;王定成;;基于AdaBoost方法的支持向量机训练样本选择[A];2009全国虚拟仪器大会论文集(一)[C];2009年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
3 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
4 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
5 ;健康、成本兼顾[N];中国计算机报;2004年
6 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
7 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
8 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
9 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
10 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
中国博士学位论文全文数据库 前10条
1 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
2 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
3 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
4 陈万海;基于支持向量机的超谱图像分类技术研究[D];哈尔滨工程大学;2008年
5 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
6 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
7 张永;基于模糊支持向量机的多类分类算法研究[D];大连理工大学;2008年
8 田江;基于支持向量机的孤立点检测方法研究[D];大连理工大学;2009年
9 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
10 魏思;基于统计模式识别的发音错误检测研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
3 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
4 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
5 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
6 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
7 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
8 张永新;基于支持向量机和遗传算法相结合的模拟电路故障诊断方法研究[D];东北大学;2009年
9 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
10 牛洪琦;空间数据挖掘分类算法的研究[D];大连海事大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978