收藏本站
《重庆大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于信息增益和信息熵的特征词权重计算研究

李海瑞  
【摘要】:面对Internet上日益膨胀的信息,人们常常感到无所适从,迷失在这些海量的信息资源中。如何准确而高效地从这些资源中获取需要的信息成为目前众多研究者面临的一个重要难题。文本分类技术作为组织和管理数据的有效方法,可以在很大程度上改善Internet上信息杂乱无章的现象,压缩检索空间,加快检索速度,提高查询精度。特征词权重计算是文本分类的一个核心组成部分,其计算的准确与否会直接影响文本分类的结果。 本文首先分析了传统的特征词权重计算方法TFIDF的优缺点。然后针对该算法存在的缺点,提出了一种新的基于信息增益和信息熵的特征词权重计算方法,该方法能够使特征词权重的计算结果更加准确,从而达到提高文本分类准确率的目的。 本文的主要研究工作如下: ①分析各特征选择算法的优缺点,并对常用的DF、IG和CHI三种特征选择算法进行对比实验。实验结果表明IG算法的效果较好,因此本文采用IG算法进行特征选择。 ②详细介绍现有的特征词权重计算方法:布尔权值法、文档频率、熵权值和TFIDF算法。然后对目前最常用的TFIDF算法的优缺点进行分析,并针对其缺点总结了现有的已存在的改进方法。 ③针对传统TFIDF算法的缺点,提出了一种新的特征词权重计算方法TFIDFIGE,该方法引入了信息增益和信息熵两个重要因子。与传统的TFIDF方法相比,本文提出的方法考虑了特征词在类间、类内的分布信息对其分类能力的影响,提高了特征词权重计算的准确性。除此之外,通过消除孤立点特征词,有效地降低了文本表示的特征维度,减少了文本分类的时间和空间复杂度。 最后,采用网络爬虫从网易新闻、新浪新闻和凤凰新闻网上下载文本数据集,并从中随机选择7700篇文本作为实验数据集。然后将本文提出的TFIDFIGE方法与传统的TFIDF和TFIDFIG方法在KNN和Na ve Bayes两种不同的分类器下进行分类对比实验。实验结果表明,本文提出的方法改善了传统TFIDF方法的不足,在文本分类的准确率、召回率和F-measure指标上均优于其他两种方法。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 高涛;何明一;;改进投影梯度非负矩阵分解的单训练样本特征提取研究[J];电子与信息学报;2010年05期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
4 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[J];计算机工程与应用;2007年35期
5 张玉芳;陈小莉;熊忠阳;;基于信息增益的特征词权重调整算法研究[J];计算机工程与应用;2007年35期
6 李学明;李海瑞;薛亮;何光军;;基于信息增益与信息熵的TFIDF算法[J];计算机工程;2012年08期
7 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
8 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
9 刘海峰;王元元;张学仁;姚泽清;;文本分类中基于位置和类别信息的一种特征降维方法[J];计算机应用研究;2008年08期
10 季铎;郑伟;蔡东风;;潜在语义索引中特征优化技术的研究[J];中文信息学报;2009年02期
【共引文献】
中国期刊全文数据库 前10条
1 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
2 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 区卫民;谭泗桥;袁哲明;柏连阳;熊洁仪;;SVR-KNN法用于除草剂QSAR研究[J];安徽农业科学;2008年35期
5 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
6 韩勇鹏;;SVM方法及其在乳制品分类问题上的应用[J];安徽农业科学;2009年08期
7 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
8 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
9 张永生;魏新军;侯振雨;彭娟;;支持向量回归分光光度法同时测定苋菜红和果绿[J];安徽农业科学;2010年33期
10 张永生;;支持向量机在害虫预测预报中的应用[J];现代农业科技;2009年14期
中国重要会议论文全文数据库 前10条
1 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
2 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
3 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
4 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 吴栋;张京华;王玉成;胡伍生;;前兆信息模型在地震预测中的应用[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
6 张向波;梅国建;徐宗昌;;基于SVM的装备战备完好性预测模型[A];第十届中国科协年会论文集(一)[C];2008年
7 张永生;魏新军;颜振敏;南海娟;;多元线性回归分光光度法同时测定饮料中三种色素[A];第十届中国科协年会论文集(三)[C];2008年
8 孟少朋;骆红云;李盛;;基于数据挖掘的汽车可靠性分析方法研究[A];2007年全国失效分析学术会议论文集[C];2007年
9 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
10 朱攀;陈跃新;;Apriori算法在参保人信用度评价中的应用[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
3 李鹤喜;基于视觉反馈的焊接机器人自主示教关键技术研究[D];华南理工大学;2010年
4 郑光辉;江苏部分地区土壤属性高光谱定量估算研究[D];南京大学;2011年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 李锦卫;基于计算机视觉的水稻、油菜叶色—氮营养诊断机理与建模[D];湖南农业大学;2010年
7 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
8 卢惠民;自主移动机器人全向视觉系统研究[D];国防科学技术大学;2010年
9 刘春波;统计建模方法的理论研究及应用[D];江南大学;2011年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
5 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
6 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
7 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
8 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
9 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年
10 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 李乐;章毓晋;;非负矩阵分解算法综述[J];电子学报;2008年04期
5 卢世光,丁方忠;搜索引擎使用技术回顾和发展趋势探讨[J];广东通信技术;1999年05期
6 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
7 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
8 李瑞东;祝磊;余党军;陈偕雄;;基于判别公共向量的单训练样本人脸识别[J];浙江大学学报(理学版);2008年02期
9 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
【相似文献】
中国期刊全文数据库 前10条
1 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期
2 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期
3 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
4 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
5 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
6 张建莉;;基于特征词驱动的带“的”字名词短语的识别[J];福建电脑;2006年05期
7 官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期
8 刘茵;;一种基于词组的用户建模技术[J];信息与电脑(理论版);2010年07期
9 王珏,刘三阳,张杰;基于广义粗糙近似的信息检索方法研究[J];系统工程与电子技术;2004年12期
10 王宏生;张琳;;基于本体的文本自动分类[J];科技信息(学术研究);2008年29期
中国重要会议论文全文数据库 前10条
1 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
5 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 吴云芳;;并列结构的外部句法特征[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年
2 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
3 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年
4 林俊铭;漳州地名用字解析[N];闽南日报;2008年
5 朱莉;互联网应用你知道多少?[N];中国电脑教育报;2006年
6 云南 张康宗;安全至上[N];电脑报;2003年
7 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
8 周小荣;一堂生动的语文课[N];中国电脑教育报;2003年
9 记者 郑维富;父子著书解密温州方言[N];浙江日报;2004年
10 王志军;巧妙备份Foxmail垃圾名单的数据[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 温昌衍;客家方言特征词研究[D];暨南大学;2001年
2 曹廷玉;赣方言特征词研究[D];暨南大学;2001年
3 符其武;琼北闽语词汇研究[D];厦门大学;2007年
4 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
5 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
6 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
7 陈浩彬;智慧德才兼备理论的实证研究[D];南京师范大学;2013年
8 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 王进;《元曲选》祈使句研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 李海瑞;基于信息增益和信息熵的特征词权重计算研究[D];重庆大学;2012年
3 韩晨靖;基于标题特征词密度聚类以及相似度计算的热点发现研究[D];电子科技大学;2013年
4 姚奇;萍乡方言特征词研究[D];厦门大学;2014年
5 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年
6 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年
7 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
8 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
9 魏慧玲;文本情感分析在产品评论中的应用研究[D];北京交通大学;2014年
10 李红;网络舆情热点话题自动化发现技术研究[D];辽宁科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026