收藏本站
《华北电力大学(北京)》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

高性能特征选择及文本分类算法研究

孙春明  
【摘要】: 从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。特征选择和文本分类算法是文本分类的两个重要的研究方向,特征选择是为了选取最能表示文本内容的特征来对庞大的文本空间进行约减,既提高了文本分类的效率又可以通过去除噪音特征提高分类精度,而好的分类方法能够有效地提高分类的效果。 本文针对现有特征选择算法没有利用有用的词条频率信息,没有定性分析的现状,提出了基于词条频率的改进特征选择算法,对特征选择算法进行了定性分析,提出了构造高效特征选择方法的约束条件和步骤,构造出一种高效的特征选择方法,并用实验证明了改进方法的有效性。
【学位授予单位】:华北电力大学(北京)
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP301.6

【引证文献】
中国期刊全文数据库 前3条
1 黄执航;张启蕊;;高脂血症分类特征选择算法研究[J];电脑知识与技术;2012年15期
2 杨玉珍;刘培玉;朱振方;邱烨;;应用特征项分布信息的信息增益改进方法研究[J];山东大学学报(理学版);2009年11期
3 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
中国硕士学位论文全文数据库 前6条
1 魏继翔;基于特征提取的酶识别问题研究[D];山东经济学院;2011年
2 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
3 李淑鹏;基于神经网络的文本自动分类系统的研究[D];武汉理工大学;2008年
4 宋丽平;文本分类中特征选择方法的研究[D];西安科技大学;2009年
5 刘恒文;基于网络语义挖掘的舆情监测预警研究[D];武汉理工大学;2010年
6 叶西切忠;基于web的藏文文本自动分类研究与实现[D];青海民族大学;2012年
【参考文献】
中国期刊全文数据库 前2条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 何伟;LSI潜在语义信息检索模型[J];数学的实践与认识;2003年09期
中国硕士学位论文全文数据库 前2条
1 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
2 万中英;基于投影寻踪中文网页自动分类[D];江西师范大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
2 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
5 张海;王尧;陈冰;胡荣祖;高红旭;赵凤起;;用Boosting算法预测多硝基芳香族化合物的密度[J];火炸药学报;2007年05期
6 张海;丁毅涛;王尧;胡荣祖;高红旭;赵凤起;;自适应梯度Boosting算法及多硝基芳香族化合物密度的主因子选择[J];火炸药学报;2011年02期
7 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
8 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
9 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
10 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
4 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 陈华杰;韦巍;;一种基于元泛化的Bagged Boosting算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
6 ;Adaptive multi-LSSVR based soft sensing for cobalt oxalate synthesis process[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
7 ;Multiple ANNs Combined Scheme for Fault Diagnosis of Power Transformers[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
8 陈峰;桂卫华;王随平;韩晓英;;深海底履带机器车的多神经网络预测控制[A];第二十三届中国控制会议论文集(下册)[C];2004年
9 师凯;蔡延光;邹谷山;王涛;;蚁群算法及粒子群算法对比及在VRP中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
10 刘峰;瞿俊;;基于聚类分析和神经网络的时间序列预测方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
4 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
5 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
6 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
7 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
8 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
9 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
10 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 王萍;语音情感识别研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
6 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
7 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
8 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
9 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
10 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 张煜东;霍元铠;吴乐南;董正超;;降维技术与方法综述[J];四川兵工学报;2010年10期
4 刘辉;邵良杉;;Web文本分类中特征项权重的研究[J];科技和产业;2010年02期
5 孙铁利;赵隽;杨凤芹;吴迪;;一种基于相对特征的文本分类算法[J];东北师大学报(自然科学版);2010年01期
6 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
7 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
8 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
9 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
10 吴绍忠;李淑华;;互联网络舆情预警机制研究[J];中国人民公安大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前1条
1 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
6 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
7 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
8 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
9 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
5 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
6 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
7 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
8 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
9 卢健;潜在语义分析在文本信息检索中的应用研究[D];华中科技大学;2005年
10 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
2 郑瑞娟;张仰森;;基于概念的Web文本分类方法及实现[J];北京信息科技大学学报(自然科学版);2013年02期
3 苏丹;周明全;王学松;任玉芝;;一种基于最少出现文档频的文本特征提取方法[J];计算机工程与应用;2012年10期
4 杨玉珍;刘培玉;姜沛佩;;向量空间模型中结合句法的文本表示研究[J];计算机工程;2011年03期
5 黄先珍;杨玉珍;刘培玉;;信息过滤中基于统计与规则的关键词抽取研究[J];计算机工程;2012年02期
6 郭亚维;刘晓霞;;文本分类中信息增益特征选择方法的研究[J];计算机工程与应用;2012年27期
7 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期
8 黄炜;程宝生;杨青;;基于本体的网络群体性事件主题发现研究[J];图书情报工作;2012年20期
9 殷聪;黄炜;;网络群体性事件的源信息获取研究初探[J];现代情报;2012年07期
10 卢卉;黄建忠;;国内网络舆情研究热点与趋势分析[J];预防医学情报杂志;2011年11期
中国博士学位论文全文数据库 前3条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
2 王根生;面向群体极化的网络舆情演化研究[D];江西财经大学;2011年
3 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 杨克强;LVQ神经网络在齿轮箱故障诊断中的研究[D];安徽农业大学;2010年
2 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
3 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
4 姜沛佩;基于遗传禁忌算法的网络信息过滤模型研究[D];山东师范大学;2011年
5 杨玉珍;基于统计与规则的特征权重计算方法研究与应用[D];山东师范大学;2011年
6 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
7 席妍妍;基于Hellinger距离的视觉信息的汉语语义习得[D];北京邮电大学;2011年
8 王秀菲;基于特征加权支持向量机的复合材料粘接缺陷量化识别研究[D];内蒙古大学;2011年
9 严灼;基于内容解析的垃圾邮件过滤技术研究[D];安徽理工大学;2011年
10 安增文;垂直搜索中信息属性抽取和分类模型研究与实现[D];中国石油大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王顺久,张欣莉,丁晶,侯玉;投影寻踪聚类模型及其应用[J];长江科学院院报;2002年06期
2 黄宏,颜文伟,宗利强;TOC分析在水质监测中的应用[J];福建环境;1999年05期
3 张欣莉,丁晶,王顺久;投影寻踪在岩溶水水质分类中的应用[J];工程勘察;2001年05期
4 蒋慰孙;2000年化工自动化展望[J];化工自动化及仪表;1994年01期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
7 牛伟霞,张永奎;潜在语义索引方法在信息过滤中的应用[J];计算机工程与应用;2001年09期
8 侯丽珊;苗夺谦;;一种带局部回溯的属性约简算法[J];计算机科学;2002年12期
9 朱明,王军,王俊普;Web网页识别中的特征选择问题研究[J];计算机工程;2000年08期
10 谭立球,谷士文,费耀平;一个网页自动分类系统的设计[J];计算技术与自动化;2002年01期
【相似文献】
中国期刊全文数据库 前10条
1 王卫玲;孔波;初建崇;杨玫;;一种新的用于文本分类的特征选择算法[J];信息技术与信息化;2009年06期
2 王晓微;;两种分类方法特征选择的比较[J];电子技术;2007年Z3期
3 林永民;朱卫东;;模糊kNN在文本分类中的应用研究[J];计算机应用与软件;2008年09期
4 吕震宇;赵爽;林永民;;kNN在文本分类中的应用研究[J];计算机与现代化;2008年11期
5 刘洋;;中文文本分类中特征选择方法的比较研究[J];科技信息;2007年03期
6 丁振国;黎靖;张卓;;一种改进的基于神经网络的文本分类算法[J];计算机应用研究;2008年06期
7 段震;王倩倩;张燕平;张铃;;覆盖算法下文本分类特征选择的研究[J];计算机技术与发展;2008年11期
8 伍建军;康耀红;;基于改进的互信息特征选择的文本分类[J];计算机应用;2006年S2期
9 台德艺;谢飞;胡学钢;;文本分类技术研究[J];合肥学院学报(自然科学版);2007年03期
10 刘海峰;陈琦;刘守生;苏展;;一种基于数据偏斜的改进KNN文本分类[J];微电子学与计算机;2010年03期
中国重要会议论文全文数据库 前10条
1 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
8 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
9 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
10 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 记者 朱振国通讯员 吴素华;华北电力大学育人“重实践、强能力”[N];光明日报;2007年
2 本报记者 谢辉 通讯员 王文坡;翅膀断了,也要飞[N];保定日报;2006年
3 赵栋陈华 仇必鳌;构筑“大电力”学科体系[N];中国电力报;2007年
4 吴素华;华北电力大学:新增风能动力等专业[N];中国教育报;2007年
5 赵凤华;华北电力大学45年培养7万人才[N];科技日报;2003年
6 记者 王渊通讯员 张朝辉 宋涛;国内首家可再生能源学院在华北电力大学成立[N];河北经济日报;2007年
7 王新红;我区与华北电力大学签署战略合作框架协议[N];新疆日报(汉);2008年
8 记者 丰捷;教育部与七大电力企业共建华北电力大学[N];光明日报;2003年
9 ;华北电力大学校园里的“洋博士军团”[N];科技日报;2003年
10 记者丁伟;华北电力大学整体划转教育部管理[N];人民日报;2003年
中国博士学位论文全文数据库 前10条
1 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
2 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
5 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
6 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
7 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 孙春明;高性能特征选择及文本分类算法研究[D];华北电力大学(北京);2007年
2 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
4 陈超;基于支持向量机的中文文本分类的系统研究[D];武汉理工大学;2007年
5 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
6 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
7 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
8 王生新;基于支持向量机的文本分类研究[D];哈尔滨工程大学;2008年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 闫晨;KNN文本分类研究[D];燕山大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026