收藏本站
《大连理工大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的中文文本分类系统的建模与实现

马宏伟  
【摘要】:随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。基于支持向量机(SVM)的文本分类算法,更是成为当前的一个研究热点。构建一个开放的灵活的SVM研究平台,有助于进一步推动将SVM用于中文文本分类的研究。 本文在Microsoft Windows 2000的Visual C++ 6.0和MS SQL Server2000平台下设计并实现了一个基于支持向量机的、便于重组重构并能实时统计分析各类中间结果的中文文本分类系统,并在此系统上对SVM用于中文文本分类的性状作了部分研究。 本文在传统中文文本自动分类模型框架的基础上,采用数据库作为耦合中介,松解了模块间的紧耦合,建立了SVM研究平台的系统模型框架。基于新模型,不仅可以方便高效地实现文本特征处理阶段所涉及的类别、文档、词条之间的各种统计运算,而且可以灵活地变更不同的算法模块,比较其性状,达到了研究平台的要求。 本文对文本分类的关键技术做了研究。在特征提取部分,结合了基于文档频率(DF)、x~2分布(CHI)、信息增益(IG)以及互信息(MI)等几种不同的特征选择方法,通过实验结果的比较,证明在本文的系统中基于IG的特征选择方法要优于其他方法。在文本表示部分,采用了TFIDF权重计算方法,实现了向量空间模型。在多类分类算法中,采用一对余类方法实现多类分类问题,分类结果较为理想。 本文利用构建的系统平台,对SVM的性状作了实验研究。在训练过程中,采用了计算机、艺术、教育、交通、环境、经济、医药、军事、政治、体育等10个类别的近2000篇文本,为了测试分类器的性能,选用了10个不同类别的近1000篇文本,实验结果表明该系统的查准率达到97.84%,查全率达到89.93%,分类效果较为理想。还与Rocchio、KNN等传统的文本分类算法进行了比较实验,结果证明基于SVM的文本分类系统在分类性能和分类速度上都体现了较大的优势。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 袁方,杨柳,张红霞;基于k-近邻方法的渐进式中文文本分类技术[J];华南理工大学学报(自然科学版);2004年S1期
2 钱铁云,王元珍,冯小年;结合类频率的关联中文文本分类[J];中文信息学报;2004年06期
3 靳小波;;文本分类综述[J];自动化博览;2006年S1期
4 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
5 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
6 张海燕,陈治平,童调生;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报;2002年09期
7 李莹,张晓辉,王华勇,常桂然;一种应用向量聚合技术的KNN中文文本分类方法[J];小型微型计算机系统;2004年06期
8 唐常杰,张天庆,胡蓉,元昌安,陈安龙;文本分类的关联规则辅助遗传算法(英文)[J];四川大学学报(工程科学版);2004年03期
9 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
10 张爱华;荆继武;向继;;中文文本分类中的文本表示因素比较[J];中国科学院研究生院学报;2009年03期
11 王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期
12 钱铁云;王元珍;冯小年;;利用prefix-hash-tree实现从中文文本到事务数据的转换[J];计算机科学;2005年05期
13 张翔;周明全;耿国华;侯凡;;面向中文文本分类的C4.5Bagging算法研究[J];计算机工程与应用;2009年26期
14 张海燕;陈治平;童调生;;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报(自然科学版);2002年03期
15 王元珍,钱铁云,冯小年;基于关联规则挖掘的中文文本自动分类[J];小型微型计算机系统;2005年08期
16 李莉;张太红;李霞;;潜在语义分析在中文文本分类中的应用[J];新疆农业大学学报;2006年02期
17 胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期
18 张翔;周明全;耿国华;;Bagging中文文本分类器的改进方法研究[J];小型微型计算机系统;2010年02期
19 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
20 刘怀亮;张治国;马志辉;赵捧未;;基于KNN的中文文本分类反馈学习研究[J];图书情报工作;2008年10期
中国重要会议论文全文数据库 前6条
1 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 李文波;孙乐;;一种LDA模型的高效并行求解算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前2条
1 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
2 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
2 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
3 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
4 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
5 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
6 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
7 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
8 李保秀;中文文本分类技术研究[D];南昌大学;2010年
9 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
10 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978