收藏本站
《哈尔滨工程大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本自动分类的研究

孙丽华  
【摘要】: 本文较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和支持向量机等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和支持向量机分类器三个中文文本分类器,集成了一个实用性较强的实验系统。 深入地分析了k近邻方法的不足,提出了改进的k近邻方法,提高了分类器的性能。 重点讨论了支持向量机的相关问题。概述了统计学习理论的主要内容,推导了支持向量机方法在文本线性可分、线性不可分和非线性可分情况下实现分类的数学公式,将学习问题转化为一个在等式约束和不等式约束下的凸二次优化问题,总结了求解的过程。针对超大规模文本库的训练与评估问题,采用分解算法,迭代求解,然后利用基于Leave-One-Out技术的ξα评估方法快速有效地计算错误率、准确率、召回率和F_1指标。证明了分解算法的有效性,在实验系统中采取了五种加速训练的措施。采用组合结构实现N个类别的支持向量机多分类器。针对支持向量机多类器中存在的文本漏识问题,采取kNN方法和特征匹配方法进行后处理,对失效文本实施二次分类,改善了多分类器的性能。 实验表明,三种分类器都适合于中文文本分类的需要,其中支持向量机分类器的分类结果稳定,精度高,性能最好。而将k近邻方法和特征匹配方法与支持向量机相结合形成的支持向量机多分类器更加适用于中文文本分类的需要。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前6条
1 张新峰 ,沈兰荪;模式识别及其在图像处理中的应用[J];测控技术;2004年05期
2 李晓宇;张新峰;沈兰荪;;支持向量机(SVM)的研究进展[J];测控技术;2006年05期
3 刘慧;杨宏光;;应用于中文文本分类的改进KNN算法[J];今日科苑;2010年08期
4 胡燕;张颂扬;;基于Google Web API的中文训练库自动获取方法研究[J];计算机与数字工程;2008年05期
5 吴波;朱昌杰;任逸卿;;文本分类技术探究[J];宿州学院学报;2012年05期
6 施水才,孙丽华;基于数字纸张的信息检索和数据挖掘技术[J];现代图书情报技术;2005年01期
中国硕士学位论文全文数据库 前10条
1 宁再早;两类仿生学算法在文本分类中的应用研究[D];安徽大学;2011年
2 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
3 刘星;基于融合分类器的垃圾评论识别方法研究[D];天津大学;2012年
4 杨森;民生信息多分类系统研究与设计[D];山东科技大学;2011年
5 杨柳;中文文本分类技术研究[D];河北大学;2006年
6 尹志喜;基于内容的垃圾邮件过滤技术研究[D];中北大学;2007年
7 初金涛;基于支持向量机的网络入侵检测研究[D];青岛大学;2007年
8 朱小娟;基于支持向量机的中文分词系统的研究[D];中南大学;2007年
9 李杏姣;农业科技咨询专家库智能管理系统的研究[D];暨南大学;2007年
10 徐卫;电子邮件预处理与过滤管理系统的研究与设计[D];苏州大学;2006年
【参考文献】
中国期刊全文数据库 前8条
1 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
2 岳喜才,伍晓宇,郑崇勋,叶大田;一种大类别数分类的神经网络方法[J];计算机研究与发展;2000年03期
3 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
4 王国胜,钟义信;支持向量机的理论基础——统计学习理论[J];计算机工程与应用;2001年19期
5 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
6 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
7 成颖,史九林;自动分类研究现状与展望[J];情报学报;1999年01期
8 肖明,沈英;自动分类研究进展[J];现代图书情报技术;2000年05期
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
4 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
5 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
6 黄远顺;;矫直机的自动故障预报技术[J];安徽冶金;2012年01期
7 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
8 林春丽;齐欣;王克成;;SVM-KNN分类器在异常行为检测中的应用[J];辽宁科技大学学报;2010年05期
9 王亮;胡静涛;;基于LS-SVM的光刻过程R2R预测控制方法[J];半导体技术;2012年06期
10 梁万路;;代价敏感支持向量机的投影次梯度求解方法[J];兵工自动化;2011年04期
中国重要会议论文全文数据库 前10条
1 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
2 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
5 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
6 吴静珠;刘翠玲;孙晓容;;支持向量机在近红外光谱检测技术中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
7 尹钟;张建华;;基于支持向量机方法的过程操作员功能状态分类[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 杨坤;纪志成;;基于峰值识别的改进SVM用电需求预测[A];中国自动化学会控制理论专业委员会B卷[C];2011年
9 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
10 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
2 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
6 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
7 李先锋;基于特征优化和多特征融合的杂草识别方法研究[D];江苏大学;2010年
8 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
9 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
10 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
4 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
5 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
6 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
7 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
8 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
9 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
10 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 王爱民,赵忠旭,沈兰荪;中医舌象自动分析中舌色、苔色分类方法的研究[J];北京生物医学工程;2000年03期
5 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
6 赵尚辉;船舶上层建筑结构噪声控制(上)[J];船舶;1994年05期
7 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期
8 何海江;凌云;;由向量空间相关模型识别博客文章的垃圾评论[J];长沙大学学报;2008年02期
9 张浩然;汪晓东;张长江;徐秀玲;;一种新型回归支持向量机的学习算法[J];测试技术学报;2006年02期
10 张长君;邮件服务器中基于地址的一种电子邮件过滤方法[J];大连大学学报;2002年02期
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
5 张少中;基于贝叶斯网络的知识发现与决策应用研究[D];大连理工大学;2003年
6 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
9 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 忻栋;支持向量机算法的研究及在说话人识别上的应用[D];浙江大学;2002年
3 吴艳冬;复杂背景中的人脸检测与定位[D];大连理工大学;2002年
4 边后琴;基于支持向量的径向基函数神经网络的训练算法[D];武汉科技大学;2002年
5 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
6 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
7 吴传孙;汽车牌照自动识别技术研究[D];江西师范大学;2003年
8 王宪保;基于仿生模式识别的人脸身份确认研究[D];浙江工业大学;2003年
9 胡小平;支持向量机在说话人识别中的应用[D];南京理工大学;2003年
10 姜卯生;数据挖掘中基于贝叶斯技术的分类问题的研究[D];合肥工业大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 刘辉;应培培;;一种改进的KNN文本分类算法[J];信息安全与技术;2011年07期
2 高军;陶娜娜;张建;;基于数字图像处理技术的印刷品质量检测系统的应用研究[J];包装工程;2006年05期
3 林敏;崔远慧;黄俊彦;王裕如;宛杰;;智能色相分析仪的设计[J];包装工程;2007年06期
4 沈丽民;李军显;;基于支持向量机的雷达高分辨距离像识别[J];弹箭与制导学报;2009年02期
5 余悦蒙;黄小斌;;一种基于KNN的文本分类算法[J];电脑知识与技术;2012年07期
6 宁焕生;刘文明;李敬;赵欣如;;航空鸟击雷达鸟情探测研究[J];电子学报;2006年12期
7 李娟;;数字纸张和传统纸张之间的关系及对图书馆的影响[J];湖北社会科学;2010年02期
8 路远;吴清江;;基于模糊支持向量机的步态身份识别研究[J];福建电脑;2009年01期
9 马宁;潘晨;曹宁;;基于SVM分类与回归的图像去噪方法[J];兰州理工大学学报;2009年01期
10 甘新玲;鲁明羽;唐焕玲;李永;;面向循证医学网络文献的SVM分类方法[J];广西师范大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前1条
1 兰利宝;董慧颖;高岚;;视频监控系统中运动目标识别方法研究[A];2007第三届中国智能交通年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
2 王克如;基于图像识别的作物病虫草害诊断研究[D];中国农业科学院;2005年
3 苏海涛;基于质量信息技术集成的“全质量”管理系统模型研究[D];合肥工业大学;2006年
4 赵向阳;基于神经网络的钢板表面缺陷识别若干问题的研究[D];大连理工大学;2006年
5 周贤;阴极炭块内部缺陷的X射线自动检测与识别研究[D];中南大学;2006年
6 陈松鹤;数字舌图的舌色分析方法研究[D];北京中医药大学;2007年
7 高阳;成像制导中的图像预处理及目标识别技术研究[D];西北工业大学;2006年
8 金向军;几种天然中药材的光谱分析[D];吉林大学;2007年
9 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
10 王荣武;基于图像处理技术的苎麻和棉纤维纵向全自动识别系统[D];东华大学;2007年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 王德才;数据挖掘在校园卡消费行为分析中的研究与应用[D];哈尔滨工程大学;2010年
4 陈艳;基于数据挖掘的卷烟配方质量SPA研究[D];中国海洋大学;2010年
5 曾玲艳;认知诊断中分类准确率的研究[D];江西师范大学;2010年
6 秦琪;安徽电力数字图书馆系统开发与应用[D];合肥工业大学;2010年
7 李保秀;中文文本分类技术研究[D];南昌大学;2010年
8 夏朝贵;公文印鉴鉴别技术研究[D];解放军信息工程大学;2010年
9 马延辉;南方针叶林遥感信息提取研究[D];中南林业科技大学;2010年
10 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
2 周强;;基于语料库和面向统计学的自然语言处理技术[J];计算机科学;1995年04期
3 王挺;陈火旺;史晓东;;语料库和机器翻译[J];计算机科学;1996年02期
4 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
5 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
6 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
7 王永成;肖玮瑛;;自动编制中文标题的主题词轮排索引及自动抽词[J];南京大学学报(自然科学版);1984年01期
8 吴蔚天;田鹤卿;;字典法中的辅助切分规则[J];情报科学;1988年03期
9 叶新明;徐进鸿;;中文文献自动分类研究[J];情报科学;1992年05期
10 叶新明;中文文献自动分类研究概述[J];情报理论与实践;1992年05期
【相似文献】
中国期刊全文数据库 前10条
1 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
2 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
3 孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期
4 王栋;孙济洲;李福超;;基于半监督支持向量机的并行远同源检测方法[J];计算机应用研究;2009年12期
5 张正阳;须文波;丁彦蕊;;SVM的参数优化及在耐热酶和常温酶分类中的应用[J];食品与生物技术学报;2010年02期
6 王东;吴湘滨;;利用粒子群算法优化SVM分类器的超参数[J];计算机应用;2008年01期
7 朱代辉;陈光鹏;杨育彬;;一种基于经验的分类方法探讨与应用[J];广西师范大学学报(自然科学版);2010年03期
8 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
9 陈蕾,黄贤武,仲兴荣,王加俊;基于支持向量机的运动目标中人脸检测[J];微电子学与计算机;2005年06期
10 周皓;李少洪;;SVM最优分类面相对位置的修正[J];北京航空航天大学学报;2009年11期
中国重要会议论文全文数据库 前10条
1 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
2 张国荣;;基于SVM分类算法的电力变压器故障诊断[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
3 王颖;毋立芳;关媛;王涓涓;;基于LBP的SVM人脸姿势估计方法[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
4 龚妙昆;万福永;许建强;袁震东;;心电图小波压缩特征提取及SVM分类分析[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 李烨;蔡云泽;李远贵;张强;;基于属性约简与依赖度分析改进支持向量机性能[A];第二十三届中国控制会议论文集(下册)[C];2004年
6 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
7 申琦;石伟民;梅桢;;基因芯片数据解析算法研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 姚大平;柳庆;陆学祥;;基于支持向量机的货物识别系统的设计与实现[A];天津市电视技术研究会2009年年会论文集(1)[C];2009年
9 孙昌儿;刘秉瀚;;一种新的SVM决策树[A];第十一届中国体视学与图像分析学术会议论文集[C];2006年
10 易辉;宋晓峰;姜斌;王定成;;基于AdaBoost方法的支持向量机训练样本选择[A];2009全国虚拟仪器大会论文集(一)[C];2009年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
3 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
4 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
5 ;健康、成本兼顾[N];中国计算机报;2004年
6 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
7 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
8 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
9 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
10 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
中国博士学位论文全文数据库 前10条
1 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
2 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
3 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
4 陈万海;基于支持向量机的超谱图像分类技术研究[D];哈尔滨工程大学;2008年
5 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
6 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
7 张永;基于模糊支持向量机的多类分类算法研究[D];大连理工大学;2008年
8 田江;基于支持向量机的孤立点检测方法研究[D];大连理工大学;2009年
9 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
10 魏思;基于统计模式识别的发音错误检测研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
3 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
4 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
5 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
6 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
7 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
8 张永新;基于支持向量机和遗传算法相结合的模拟电路故障诊断方法研究[D];东北大学;2009年
9 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
10 牛洪琦;空间数据挖掘分类算法的研究[D];大连海事大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026