收藏本站
《河南工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于粒子群算法和支持向量机的中文文本分类研究

刘伟丽  
【摘要】: 随着科学技术的迅猛发展和Internet的日益普及,人们面临的信息数据呈现爆炸式的增长,如何对海量、重复、异构的文本数据进行快速有效的提取一直是本学科的前沿研究课题。文本自动分类作为处理海量信息的关键技术,通过对文档集的分类提炼,抽取有用的知识、规律等信息,建立良好的组织结构,以提高文档存取和检索等操作效率。在数字存储技术日益普及的今天,文本自动分类技术应用范围更加广泛,如数字图书馆、电子邮件的自动分类、电子商(政)务、新闻分类等。因此对文本自动分类技术的研究不仅具有重要的学术价值,而且具有广泛的应用前景。 本文首先分析了现有的中文文本分词算法,在深入研究常用分词算法的特点的基础上,设计了一种改进的词典机制,并提出了一种改进的逆向最大匹配分词算法,所提出算法显著提高了分词处理速度和分词正确率。 深入分析了文本分类中传统的特征选择评估算法,在此基础上提出一种基于类别的特征选择算法。实验结果表明,与传统特征选择方法相比,所提出特征选择方法获得的特征具有更好的文本分类效果,能够更好地提高分类系统的性能和精度。 最后,基于粒子群算法,对支持向量机的模型参数选择问题进行了研究,通过将粒子群算法与支持向量机相结合,给出了PSO-SVM算法。PSO-SVM算法是建立在SVM数学模型的基础上,在支持向量机分类算法的训练过程中引入粒子群算法,对误差惩罚因子和核函数参数进行优化,并同时优化最佳特征子集,在此基础上,将SVM的参数选择问题转化成整数规划问题,通过粒子设计和适应度函数的设计,最终集成了粒子群算法的全局搜索特性和支持向量机的良好的分类性能,改善支持向量机的学习、分类能力,提高文本分类的正确率,减少特征数量。通过对中文文本分类数据集进行的测试,结果表明该算法与GA-SVM算法相比,可以获得较高的学习能力和更好的分类正确率。
【学位授予单位】:河南工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 刘美茹;;基于LSI和SVM的文本分类研究[J];计算机工程;2007年15期
2 孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期
3 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
4 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
5 阎辉,张学工,李衍达;支持向量机与最小二乘法的关系研究[J];清华大学学报(自然科学版);2001年09期
6 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
7 侯风雷,王炳锡;基于支持向量机的说话人辨认研究[J];通信学报;2002年06期
8 马永军,方凯,刘暾东,方廷健;基于支持向量机和方差的管道内表面粗糙度等级识别[J];信息与控制;2002年05期
9 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
10 孙延风,梁艳春;支持向量机的数据依赖型核函数改进算法[J];吉林大学学报(理学版);2003年03期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 周颖;王米渠与中医心理学[N];中国中医药报;2006年
8 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
9 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
10 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
7 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
10 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
2 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
3 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
4 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
5 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
6 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
7 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
8 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
9 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
10 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026