收藏本站
《中南林业科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机与聚类算法的中文文本分类研究

吴惠雄  
【摘要】:随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本分类技术得到了空前的发展,引起了人们的普遍关注。文本自动分类是指由计算机自动判别文本类别的过程,文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性的特点。支持向量机对于特征相关性和稀疏性不敏感,且在处理高维数问题时较其它方法具有较大优势,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题,目前应用支持向量进行文本分类主要存在着训练分类模型速度较慢等显著的缺陷。 本文针对支持向量进行文本分类时存在着的训练分类模型速度较慢的缺陷,尝试对支持向量机的训练样本进行某种预处理,以便尽量克服支持向量机的此类缺陷,更好地应用于文本分类。已有的研究表明支持向量机的建立只取决于训练样本中的支持向量而与非支持向量无关,因此本文从降低文本分类过程中文本向量数目的角度出发,削减文本向量集中的非支持向量来加快训练支持向量机分类的速度。本文采用了一种基于密度概念的k-均值聚类算法,充分利用训练文本类别信息已知的条件,以两两聚类的方式在训练样本预处理阶段尽可能地削减训练样本中的非支持向量保留支持向量,使得最终参与训练支持向量机的样本数大大减少,从而生成了一个既具与传统的支持向量机分类方法分类精度相当,又在时间复杂度方面有较大改进的中文文本分类模型。同时本文对于k-均值聚类算法存在的某些缺陷进行了针对性的改进,通过对参与聚类的数据进行了规范化的处理,使参与聚类数据由无规则分布转变为团簇状分布,从而便于聚类处理,引入密度来确定聚类的初始中心,引入纯度度量来确定合适的聚类中心的密度半径,从而最终达到最有效削减支持向量机训练样本的目的。
【学位授予单位】:中南林业科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
3 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
4 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
5 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
6 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
7 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
8 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
9 朱靖波,姚天顺;一种短语结构规则的自动获取方法[J];计算机研究与发展;1999年05期
10 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
中国博士学位论文全文数据库 前3条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 秦洪英;数据挖掘在网络业务流设计中的实现过程[J];阿坝师范高等专科学校学报;2005年03期
2 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
3 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
4 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
5 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
6 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
7 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
8 宋平平;;基于数据挖掘的智能入侵检测系统模型及实现[J];安徽工程科技学院学报(自然科学版);2006年03期
9 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
10 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
6 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
7 王红霞;田国会;李晓磊;卜范骞;;基于地标信息融合的家庭环境机器人组合导航[A];第二十六届中国控制会议论文集[C];2007年
8 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
9 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
10 曹爱增;陈月婷;魏军;李金屏;;一种基于EDAs和聚类分析的杂合进化算法[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
3 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
4 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
5 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
6 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
7 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
8 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
9 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
10 易吉良;基于S变换的电能质量扰动分析[D];湖南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
8 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
9 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
10 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
2 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
3 张鸿宾,孙广煜;近邻法参考样本集的最优选择[J];电子学报;2000年11期
4 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
5 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
6 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
7 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
8 石国华;科技文献主题词的自动标引法[J];杭州大学学报(自然科学版);1998年03期
9 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
10 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
中国重要会议论文全文数据库 前3条
1 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
2 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
【相似文献】
中国期刊全文数据库 前10条
1 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
2 袁方,杨柳,张红霞;基于k-近邻方法的渐进式中文文本分类技术[J];华南理工大学学报(自然科学版);2004年S1期
3 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
4 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
5 王俊英;郭景峰;霍峥;;中文文本分类系统的设计与实现[J];微电子学与计算机;2006年S1期
6 张成宝;王志玲;;基于层次分析法的中文文本分类系统评价[J];农业图书情报学刊;2007年12期
7 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
8 姚兴山;;基于统计的中文文本分类研究[J];情报理论与实践;2009年05期
9 刘怀亮;张治国;赵捧未;;中文文本分类反馈学习研究[J];情报理论与实践;2009年06期
10 孙士保;李保元;李天瑞;吴正江;郑瑞娟;;基于类内关键词的中文文本分类模型的改进[J];广西师范大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前3条
1 王俊英;郭景峰;霍峥;;中文文本分类系统的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
2 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国硕士学位论文全文数据库 前10条
1 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
2 郑婷婷;基于相关规则挖掘的中文文本分类[D];华中科技大学;2007年
3 张治国;中文文本分类反馈学习研究[D];西安电子科技大学;2009年
4 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
5 孙国欣;基于主动学习的中文文本分类[D];兰州大学;2006年
6 于瑞萍;中文文本分类相关算法的研究与实现[D];西北大学;2007年
7 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
8 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
9 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
10 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026