收藏本站
《中南林业科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机与聚类算法的中文文本分类研究

吴惠雄  
【摘要】:随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本分类技术得到了空前的发展,引起了人们的普遍关注。文本自动分类是指由计算机自动判别文本类别的过程,文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性的特点。支持向量机对于特征相关性和稀疏性不敏感,且在处理高维数问题时较其它方法具有较大优势,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题,目前应用支持向量进行文本分类主要存在着训练分类模型速度较慢等显著的缺陷。 本文针对支持向量进行文本分类时存在着的训练分类模型速度较慢的缺陷,尝试对支持向量机的训练样本进行某种预处理,以便尽量克服支持向量机的此类缺陷,更好地应用于文本分类。已有的研究表明支持向量机的建立只取决于训练样本中的支持向量而与非支持向量无关,因此本文从降低文本分类过程中文本向量数目的角度出发,削减文本向量集中的非支持向量来加快训练支持向量机分类的速度。本文采用了一种基于密度概念的k-均值聚类算法,充分利用训练文本类别信息已知的条件,以两两聚类的方式在训练样本预处理阶段尽可能地削减训练样本中的非支持向量保留支持向量,使得最终参与训练支持向量机的样本数大大减少,从而生成了一个既具与传统的支持向量机分类方法分类精度相当,又在时间复杂度方面有较大改进的中文文本分类模型。同时本文对于k-均值聚类算法存在的某些缺陷进行了针对性的改进,通过对参与聚类的数据进行了规范化的处理,使参与聚类数据由无规则分布转变为团簇状分布,从而便于聚类处理,引入密度来确定聚类的初始中心,引入纯度度量来确定合适的聚类中心的密度半径,从而最终达到最有效削减支持向量机训练样本的目的。
【关键词】:支持向量机 中文文本分类 聚类 削减
【学位授予单位】:中南林业科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 1 绪论9-14
  • 1.1 问题的提出及意义9-10
  • 1.2 研究现状及主要成果10-11
  • 1.3 本文的主要研究内容11-14
  • 2 中文文本分类的相关技术14-28
  • 2.1 汉语分词词典15
  • 2.2 汉语分词15-17
  • 2.2.1 正向最大匹配分词16
  • 2.2.2 反向最大匹配分词16
  • 2.2.3 基于统计的词网格分词16-17
  • 2.3 文档表示模型17-20
  • 2.3.1 文档特征17-18
  • 2.3.2 文档表示18-19
  • 2.3.3 常用的特征词赋权方法19-20
  • 2.4 特征降维20-25
  • 2.4.1 特征词选择21-23
  • 2.4.2 特征词析取23-25
  • 2.5 常用的文本分类方法25-28
  • 2.5.1 Rocchio方法——相似度计算方法25
  • 2.5.2 K近邻方法25-26
  • 2.5.3 贝叶斯方法26-27
  • 2.5.4 支持向量机方法27-28
  • 3 统计学习理论与支持向量机28-40
  • 3.1 机器学习的基本问题28-30
  • 3.1.1 机器学习问题的表示28-29
  • 3.1.2 经验风险最小化29
  • 3.1.3 复杂性与推广能力29-30
  • 3.2 统计学习理论的核心内容30-32
  • 3.2.1 VC维定义30
  • 3.2.2 推广性的界30-31
  • 3.2.3 结构风险最小化31-32
  • 3.3 支持向量机32-37
  • 3.3.1 最优分类超平面32-33
  • 3.3.2 线性支持向量机33-36
  • 3.3.3 非线性支持向量机36-37
  • 3.4 用于多类分类的支持向量机37-40
  • 3.4.1 一类对余类分类方法37-38
  • 3.4.2 成对分类38-40
  • 4 聚类算法在支持向量机中的应用40-52
  • 4.1 聚类算法的概念与分类40-42
  • 4.1.1 聚类的概念40-41
  • 4.1.2 常用的聚类算法41-42
  • 4.2 传统的K-均值聚类算法与基于密度概念的K-均值聚类算法42-45
  • 4.2.1 传统K-均值算法42-43
  • 4.2.2 基于密度概念的K-均值算法43-45
  • 4.3 聚类算法在支持向量选取中的应用45-52
  • 4.3.1 文本向量的规范化处理46-47
  • 4.3.2 基于类别信息的两两聚类的支持向量预选取47-52
  • 5 实验及结果分析52-61
  • 5.1 文本分类器常用性能评价指标介绍52-53
  • 5.1.1 查准率、查全率和F_1值52
  • 5.1.2 微平均和宏平均52-53
  • 5.2 实验分析53-61
  • 5.2.1 中文文本语料预处理54-56
  • 5.2.2 文本分类的实现56-61
  • 结论61-63
  • 参考文献63-69
  • 攻读学位期间的主要学术成果69-70
  • 致谢70

【相似文献】
中国期刊全文数据库 前10条
1 刘美茹;;基于LSI和SVM的文本分类研究[J];计算机工程;2007年15期
2 孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期
3 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
4 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
5 阎辉,张学工,李衍达;支持向量机与最小二乘法的关系研究[J];清华大学学报(自然科学版);2001年09期
6 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
7 侯风雷,王炳锡;基于支持向量机的说话人辨认研究[J];通信学报;2002年06期
8 马永军,方凯,刘暾东,方廷健;基于支持向量机和方差的管道内表面粗糙度等级识别[J];信息与控制;2002年05期
9 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
10 孙延风,梁艳春;支持向量机的数据依赖型核函数改进算法[J];吉林大学学报(理学版);2003年03期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 周颖;王米渠与中医心理学[N];中国中医药报;2006年
8 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
9 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
10 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
7 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
10 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
2 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
3 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
4 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
5 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
6 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
7 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
8 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
9 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
10 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026