收藏本站
《东北大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的新闻自动分类技术的研究与应用

易潇  
【摘要】:随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。利用文本自动分类技术,可以快速地处理大规模的文本数据,大大地提高信息的可用性和利用率。目前,文本分类系统大多采用统计和机器学习的方法,这类方法在语义的水平上来分析文本内容,判断其相似度,从而得到类别划分。 本文在对文本分类理论了解的基础上,对基于统计学习理论的支持向量机理论进行了深入的研究和探讨,然后提出了基于双词典的改进型双向最大匹配算法和基于动态表的停用词消除算法,这两个算法有效地提高了文本预处理的正确率,去掉了绝大多数无用的词项,使得表达文档特征的向量更准确。通过在文本预处理阶段提高预处理结果的准确性,尽量减少能够影响分类精度的文档噪声,提高SVM分类器输入的准确性,使得SVM分类器能够得到尽可能准确的结果。 本文还提出了基于改进型多项式核的SVM多类分类算法,该算法比较好地解决了多类文本分类的问题,同时有效地利用了人工添加的类别,在较少的时间内可以完成整个训练和分类工作。最后结合这三个算法完整地设计和实现了一个新闻自动分类系统,并给出了评估方法和实验结果。
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP18;TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
2 乔鸿欣;基于MapReduce的KNN分类算法的研究与实现[D];北京交通大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 姜斌;和湘;孙月光;黎湘;;一种改进的支持向量机模式分类方法[J];电光与控制;2007年04期
2 唐小力;吕宏伟;;基于SVM的文本多类分类方法研究[J];电脑知识与技术;2006年08期
3 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
4 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 左森;郭晓松;万敬;周召发;;多项式核函数SVM快速分类算法[J];计算机工程;2007年06期
7 沈丽虹,周昌乐;基于语义空间的支持向量机的文本过滤[J];计算机应用;2005年03期
8 陈耀东,王挺;基于有向图的双向匹配分词算法及实现[J];计算机应用;2005年06期
9 傅间莲,陈群秀;基于连续段落相似度的主题划分算法[J];计算机应用;2005年09期
10 孟媛媛,刘希玉;一种新的基于二叉树的SVM多类分类方法[J];计算机应用;2005年11期
【共引文献】
中国期刊全文数据库 前10条
1 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
2 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
3 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
4 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
5 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
6 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
7 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
8 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
9 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
10 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
7 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
8 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
9 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
10 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
6 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
7 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
8 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
9 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
10 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
8 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
9 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
10 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 开华东;田琪;;基于MapReduce集群的加权公平队列调度算法研究[J];电脑知识与技术;2011年09期
4 奚建清;游进国;汤德佑;肖伟吉;;基于MapReduce的封闭立方体并行计算方法[J];华南理工大学学报(自然科学版);2009年01期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
7 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
8 周钦强,孙炳达,王义;文本自动分类系统文本预处理方法的研究[J];计算机应用研究;2005年02期
9 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
10 确精扎布,那顺乌日图;关于蒙古文编码(上)[J];内蒙古大学学报(哲学社会科学版);1994年04期
中国博士学位论文全文数据库 前1条
1 何婷婷;语料库研究[D];华中师范大学;2003年
中国硕士学位论文全文数据库 前6条
1 蔡俊杰;结合用户标注信息的图像分类研究[D];中国科学技术大学;2011年
2 刘伟;海量遥感影像数据存储技术研究[D];国防科学技术大学;2007年
3 蒋斌;基于停用词处理的汉语语音检索方法[D];哈尔滨工业大学;2008年
4 金威;蒙古文信息检索模型的研究[D];内蒙古大学;2009年
5 阿雅娜;蒙古文停用词表和词干提取对蒙古文文本分类的影响[D];内蒙古大学;2009年
6 关冕;Web论坛结构化数据抽取技术研究[D];山东大学;2010年
【二级引证文献】
{ԌE{Ԍdy>
中国硕士学位论文全文数据库 前2条
1 李慧;蒙古语语义知识词典的研究与实现[D];内蒙古大学;2012年
2 刘娜;基于蒙古文语义的查询扩展研究与实现[D];内蒙古大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 郭志恒,张彤;应用神经元网络方法实现目标分类[J];电光与控制;1998年01期
5 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
6 赵晶,张旭东,高隽;基于支持向量机的多类形状识别系统[J];合肥工业大学学报(自然科学版);2004年01期
7 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
8 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
9 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
10 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
中国重要会议论文全文数据库 前1条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 孙德山;支持向量机分类与回归方法研究[D];中南大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 卢祖友;桑永胜;;基于球向量机的中文文本分类[J];计算机工程与科学;2008年12期
2 郝海涛;;基于向量机的文本分类中词典结构研究[J];福建电脑;2009年03期
3 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
4 吴守用;;基于SVM的哈萨克语文本分类初探[J];现代计算机(专业版);2010年04期
5 赵延平;谢丽聪;;面向电信领域的文本分类研究[J];计算机与现代化;2011年02期
6 吴巧敏;林亚平;;一种基于重复训练的支持向量机方法[J];计算机工程与应用;2007年31期
7 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
8 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
9 张玉峰;何超;;基于潜在语义分析和HS-SVM的文本分类模型研究[J];情报理论与实践;2010年07期
10 陈立孚,周宁,李丹;基于机器学习的自动文本分类模型研究[J];现代图书情报技术;2005年10期
中国重要会议论文全文数据库 前10条
1 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
3 曹菲菲;朱慕华;朱靖波;;基于抽样的两阶段支持向量机训练算法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 栾江;唐常杰;黄晓冬;阴小雄;廖勇;;一种增量式支持向量机文本分类模型[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
8 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
9 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
10 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
中国重要报纸全文数据库 前10条
1 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
5 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
6 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
7 ;选择合适的数据挖掘算法[N];计算机世界;2007年
8 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
9 周颖;王米渠与中医心理学[N];中国中医药报;2006年
10 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
中国博士学位论文全文数据库 前10条
1 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
2 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
3 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
4 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
5 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
6 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
7 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
8 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
9 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
10 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
中国硕士学位论文全文数据库 前10条
1 易潇;基于支持向量机的新闻自动分类技术的研究与应用[D];东北大学;2008年
2 张滨;中文文档分类技术研究[D];武汉大学;2004年
3 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
4 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
5 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
6 李强;基于支持向量机的文本分类方法研究[D];西安科技大学;2009年
7 于海龙;面向PU问题的文本分类的研究与实现[D];吉林大学;2005年
8 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
9 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
10 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026