收藏本站
《大连理工大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的中文文本分类系统的建模与实现

马宏伟  
【摘要】:随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。基于支持向量机(SVM)的文本分类算法,更是成为当前的一个研究热点。构建一个开放的灵活的SVM研究平台,有助于进一步推动将SVM用于中文文本分类的研究。 本文在Microsoft Windows 2000的Visual C++ 6.0和MS SQL Server2000平台下设计并实现了一个基于支持向量机的、便于重组重构并能实时统计分析各类中间结果的中文文本分类系统,并在此系统上对SVM用于中文文本分类的性状作了部分研究。 本文在传统中文文本自动分类模型框架的基础上,采用数据库作为耦合中介,松解了模块间的紧耦合,建立了SVM研究平台的系统模型框架。基于新模型,不仅可以方便高效地实现文本特征处理阶段所涉及的类别、文档、词条之间的各种统计运算,而且可以灵活地变更不同的算法模块,比较其性状,达到了研究平台的要求。 本文对文本分类的关键技术做了研究。在特征提取部分,结合了基于文档频率(DF)、x~2分布(CHI)、信息增益(IG)以及互信息(MI)等几种不同的特征选择方法,通过实验结果的比较,证明在本文的系统中基于IG的特征选择方法要优于其他方法。在文本表示部分,采用了TFIDF权重计算方法,实现了向量空间模型。在多类分类算法中,采用一对余类方法实现多类分类问题,分类结果较为理想。 本文利用构建的系统平台,对SVM的性状作了实验研究。在训练过程中,采用了计算机、艺术、教育、交通、环境、经济、医药、军事、政治、体育等10个类别的近2000篇文本,为了测试分类器的性能,选用了10个不同类别的近1000篇文本,实验结果表明该系统的查准率达到97.84%,查全率达到89.93%,分类效果较为理想。还与Rocchio、KNN等传统的文本分类算法进行了比较实验,结果证明基于SVM的文本分类系统在分类性能和分类速度上都体现了较大的优势。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 牛琳;基于SVM的公安情报自动分类系统的设计与实现[D];解放军信息工程大学;2007年
2 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
3 王国胜,钟义信;支持向量机的理论基础——统计学习理论[J];计算机工程与应用;2001年19期
4 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
5 李亮,刘万春,徐泉清,朱玉文;一种基于支持向量机的专业中文网页分类器[J];计算机应用;2004年04期
6 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类方法的研究与实现[J];计算机应用;2004年S1期
7 许建华,张学工,李衍达;支持向量机的新发展[J];控制与决策;2004年05期
8 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
9 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
10 张爱丽,刘广利,刘长宇;基于SVM的多类文本分类研究[J];情报杂志;2004年09期
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
3 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
4 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
5 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
6 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
7 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
8 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
9 黄远顺;;矫直机的自动故障预报技术[J];安徽冶金;2012年01期
10 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
6 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
7 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
8 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
9 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
10 吴静珠;刘翠玲;孙晓容;;支持向量机在近红外光谱检测技术中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
6 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
7 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
8 李先锋;基于特征优化和多特征融合的杂草识别方法研究[D];江苏大学;2010年
9 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
10 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
4 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
5 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
6 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
7 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
8 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
9 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
10 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期
3 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
4 陈一兵;;实施情报信息主导警务战略 积极构建具有时代特征的情报信息体系[J];公安学刊.浙江公安高等专科学校学报;2006年02期
5 陈云腾;冯元;;情报信息主导警务工作模式之研究[J];公安学刊.浙江公安高等专科学校学报;2006年02期
6 刘海博;郗亚辉;王煜;;用于文本分类的快速KNN算法[J];河北大学学报(自然科学版);2008年03期
7 胡学钢;董学春;谢飞;;基于词向量空间模型的中文文本分类方法[J];合肥工业大学学报(自然科学版);2007年10期
8 于一;;K-近邻法的文本分类算法分析与改进[J];火力与指挥控制;2008年04期
9 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
10 范焱,陈恩红,王清毅,蔡庆生,刘洁;超文本协调分类器的性能研究[J];计算机研究与发展;2000年09期
中国博士学位论文全文数据库 前2条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 韩玲;经验遗传算法及其应用研究[D];北京工业大学;2004年
3 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
4 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
5 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
6 丁琼;基于向量空间模型的文本自动分类系统的研究与实现[D];同济大学;2007年
7 于瑞萍;中文文本分类相关算法的研究与实现[D];西北大学;2007年
8 庄新妍;基于SVM的中文文本分类系统的研究与实现[D];吉林大学;2007年
9 高亚波;文本分类系统的设计与实现[D];北京交通大学;2008年
10 郑伟;文本分类特征选取技术研究[D];内蒙古大学;2008年
【二级引证文献】
中国期刊全文数据库 前3条
1 谭敏;;基于UML的公安情报自动分类系统设计[J];价值工程;2011年11期
2 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
3 谭敏;范强;;基于SVM的公安情报自动分类系统模型设计[J];网络安全技术与应用;2012年07期
中国硕士学位论文全文数据库 前2条
1 吴琼;基于遥感图像的松材线虫病区域检测算法研究[D];安徽大学;2013年
2 陈江丽;基于最短距离聚类的K最近邻分类的研究及应用[D];云南大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 王小华,张国煊;基于多元统计分析的电子文本自动分类[J];杭州电子工业学院学报;1999年03期
3 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
4 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
5 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
6 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
7 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
8 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
9 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
10 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
【相似文献】
中国期刊全文数据库 前10条
1 袁方,杨柳,张红霞;基于k-近邻方法的渐进式中文文本分类技术[J];华南理工大学学报(自然科学版);2004年S1期
2 钱铁云,王元珍,冯小年;结合类频率的关联中文文本分类[J];中文信息学报;2004年06期
3 靳小波;;文本分类综述[J];自动化博览;2006年S1期
4 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
5 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
6 张海燕,陈治平,童调生;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报;2002年09期
7 李莹,张晓辉,王华勇,常桂然;一种应用向量聚合技术的KNN中文文本分类方法[J];小型微型计算机系统;2004年06期
8 唐常杰,张天庆,胡蓉,元昌安,陈安龙;文本分类的关联规则辅助遗传算法(英文)[J];四川大学学报(工程科学版);2004年03期
9 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
10 张爱华;荆继武;向继;;中文文本分类中的文本表示因素比较[J];中国科学院研究生院学报;2009年03期
中国重要会议论文全文数据库 前6条
1 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 李文波;孙乐;;一种LDA模型的高效并行求解算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前2条
1 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
2 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
2 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
3 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
4 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
5 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
6 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
7 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
8 李保秀;中文文本分类技术研究[D];南昌大学;2010年
9 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
10 赵辉;基于复杂网络的中文文本分类研究[D];西安电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026