收藏本站
《东北大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的新闻自动分类技术的研究与应用

易潇  
【摘要】:随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。利用文本自动分类技术,可以快速地处理大规模的文本数据,大大地提高信息的可用性和利用率。目前,文本分类系统大多采用统计和机器学习的方法,这类方法在语义的水平上来分析文本内容,判断其相似度,从而得到类别划分。 本文在对文本分类理论了解的基础上,对基于统计学习理论的支持向量机理论进行了深入的研究和探讨,然后提出了基于双词典的改进型双向最大匹配算法和基于动态表的停用词消除算法,这两个算法有效地提高了文本预处理的正确率,去掉了绝大多数无用的词项,使得表达文档特征的向量更准确。通过在文本预处理阶段提高预处理结果的准确性,尽量减少能够影响分类精度的文档噪声,提高SVM分类器输入的准确性,使得SVM分类器能够得到尽可能准确的结果。 本文还提出了基于改进型多项式核的SVM多类分类算法,该算法比较好地解决了多类文本分类的问题,同时有效地利用了人工添加的类别,在较少的时间内可以完成整个训练和分类工作。最后结合这三个算法完整地设计和实现了一个新闻自动分类系统,并给出了评估方法和实验结果。
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP18;TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
2 乔鸿欣;基于MapReduce的KNN分类算法的研究与实现[D];北京交通大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 姜斌;和湘;孙月光;黎湘;;一种改进的支持向量机模式分类方法[J];电光与控制;2007年04期
2 唐小力;吕宏伟;;基于SVM的文本多类分类方法研究[J];电脑知识与技术;2006年08期
3 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
4 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 左森;郭晓松;万敬;周召发;;多项式核函数SVM快速分类算法[J];计算机工程;2007年06期
7 沈丽虹,周昌乐;基于语义空间的支持向量机的文本过滤[J];计算机应用;2005年03期
8 陈耀东,王挺;基于有向图的双向匹配分词算法及实现[J];计算机应用;2005年06期
9 傅间莲,陈群秀;基于连续段落相似度的主题划分算法[J];计算机应用;2005年09期
10 孟媛媛,刘希玉;一种新的基于二叉树的SVM多类分类方法[J];计算机应用;2005年11期
【共引文献】
中国期刊全文数据库 前10条
1 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
2 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
3 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
4 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
5 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
6 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
7 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
8 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
9 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
10 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
7 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
8 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
9 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
10 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
6 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
7 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
8 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
9 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
10 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
8 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
9 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
10 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 开华东;田琪;;基于MapReduce集群的加权公平队列调度算法研究[J];电脑知识与技术;2011年09期
4 奚建清;游进国;汤德佑;肖伟吉;;基于MapReduce的封闭立方体并行计算方法[J];华南理工大学学报(自然科学版);2009年01期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
7 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
8 周钦强,孙炳达,王义;文本自动分类系统文本预处理方法的研究[J];计算机应用研究;2005年02期
9 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
10 确精扎布,那顺乌日图;关于蒙古文编码(上)[J];内蒙古大学学报(哲学社会科学版);1994年04期
中国博士学位论文全文数据库 前1条
1 何婷婷;语料库研究[D];华中师范大学;2003年
中国硕士学位论文全文数据库 前6条
1 蔡俊杰;结合用户标注信息的图像分类研究[D];中国科学技术大学;2011年
2 刘伟;海量遥感影像数据存储技术研究[D];国防科学技术大学;2007年
3 蒋斌;基于停用词处理的汉语语音检索方法[D];哈尔滨工业大学;2008年
4 金威;蒙古文信息检索模型的研究[D];内蒙古大学;2009年
5 阿雅娜;蒙古文停用词表和词干提取对蒙古文文本分类的影响[D];内蒙古大学;2009年
6 关冕;Web论坛结构化数据抽取技术研究[D];山东大学;2010年
【二级引证文献】
中国硕士学位论文全文数据库 前6条
1 李慧;蒙古语语义知识词典的研究与实现[D];内蒙古大学;2012年
2 刘娜;基于蒙古文语义的查询扩展研究与实现[D];内蒙古大学;2012年
3 丁国强;基于Lucene的蒙古文全文检索系统研究与实现[D];内蒙古师范大学;2013年
4 张俨;一种云计算环境下人脸识别系统的设计与实现[D];西安电子科技大学;2013年
5 杨国营;基于MapReduce模型文本分类算法的研究[D];辽宁大学;2013年
6 金鹏;基于Hadoop的SKNN文本分类算法的设计与实现[D];华中师范大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 郭志恒,张彤;应用神经元网络方法实现目标分类[J];电光与控制;1998年01期
5 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
6 赵晶,张旭东,高隽;基于支持向量机的多类形状识别系统[J];合肥工业大学学报(自然科学版);2004年01期
7 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
8 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
9 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
10 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
中国重要会议论文全文数据库 前1条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 孙德山;支持向量机分类与回归方法研究[D];中南大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
2 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
3 阎辉,张学工,李衍达;支持向量机与最小二乘法的关系研究[J];清华大学学报(自然科学版);2001年09期
4 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
5 侯风雷,王炳锡;基于支持向量机的说话人辨认研究[J];通信学报;2002年06期
6 马永军,方凯,刘暾东,方廷健;基于支持向量机和方差的管道内表面粗糙度等级识别[J];信息与控制;2002年05期
7 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
8 孙延风,梁艳春;支持向量机的数据依赖型核函数改进算法[J];吉林大学学报(理学版);2003年03期
9 朱永生,张优云;支持向量机分类器中几个问题的研究[J];计算机工程与应用;2003年13期
10 朱家元,吴伟,张恒喜,董彦非;一种新型的多元分类支持向量机[J];计算机工程;2003年17期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 周颖;王米渠与中医心理学[N];中国中医药报;2006年
8 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
9 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
10 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 刘叶青;原始空间中支持向量机若干问题的研究[D];西安电子科技大学;2009年
7 常甜甜;支持向量机学习算法若干问题的研究[D];西安电子科技大学;2010年
8 胡运红;支持向量机的若干算法研究[D];山东科技大学;2011年
9 周喜川;非可信环境下的支持向量机研究[D];浙江大学;2010年
10 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
2 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
3 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
4 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
5 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
6 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
7 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
8 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
9 王奇安;基于广泛内核的CVM算法研究及参数C的选择[D];南京航空航天大学;2009年
10 张永新;基于支持向量机和遗传算法相结合的模拟电路故障诊断方法研究[D];东北大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026