收藏本站
《重庆大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类中特征提取和特征加权方法研究

蒋健  
【摘要】: 随着近年来互联网技术和信息技术的飞速发展,人们可获取的数据量迅速增长。如何快速、准确、全面地从浩瀚的信息资源中寻找到所要的狭小领域内的相关信息内容,已经成为了一项十分有意义的课题。文本分类技术作为解决这一问题的关键技术之一,也成为了研究的热点。 文本分类是一个复杂的系统工程,一般包括文本预处理、特征降维、特征加权、分类器训练和分类器性能评估等几个过程。本文在对这些过程进行详细了解和研究的基础之上,重点探讨了特征降维和特征加权过程。 对高维的特征集进行降维是文本分类过程中的一个重要环节,它不仅可以提高分类器的速度,节省存储空间,还能够过滤一些无关属性,减少无关信息对文本分类过程的干扰,从而提高文本分类的精度和防止过拟合。特征降维可以分为两类:特征抽取和特征提取。特征提取因其方法简单、计算速度快,适合用来处理大规模的文本数据,在文本分类中得到了广泛的应用。本文详细研究了目前常用的特征提取方法,包括文档频数、互信息、信息增益、期望交叉熵、χ2统计量和文本证据权。本文分析了这些方法的各自的特点,针对这些方法的不足之处,结合类间集中度、类内分散度和类内平均频度,提出了一种新的特征提取方法。该方法突出了特征与文本类别的正相关关系,避免了考虑负相关情况所带来的干扰,综合考虑了特征和类别之间的联系,以及特征在类内出现的平均频度,是一种简单有效的特征提取方法。 特征加权过程,能够改善文本集合在向量空间中的分布状态,使得同类文本的空间结构更加紧凑,异类文本的空间结构更加松散,从而简化了从文本到类别的映射关系,有利于提高文本分类器的分类性能。本文研究了经典的特征加权方法——TF-IDF,分析了它由于未考虑特征项在类间和类内的分布情况而导致对稀有特征赋予较大权值,而对类别区分贡献大的特征赋予较小权值的不足之处。进而结合了类间集中度、类内分散度,提出一种TF-IDF公式的改进形式,来弥补原始TF-IDF方法的缺陷。 本文在中文文本分类实验平台上,通过多组对比实验来考察本文提出的新的特征提取方法和改进的TF-IDF方法的有效性。实验结果使用查全率、查准率和F1值等多项评价指标来衡量。结果表明新的特征提取方法能够取得比其他常见特征提取方法更优的降维效果,同时改进的TF-IDF特征加权方法的效果也要好于传统的TF-IDF方法。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
中国硕士学位论文全文数据库 前7条
1 许庚寅;基于粗糙集的Web文本分类技术研究[D];电子科技大学;2011年
2 韩平平;基于本体的中文科技论文分类研究[D];东北师范大学;2011年
3 周远阳;基于朴素贝叶斯方法的新闻分类系统的实现[D];暨南大学;2012年
4 万斌候;文本分类中的特征降维方法研究[D];重庆大学;2012年
5 王勇;中文文本分类特征选择和特征加权方法研究[D];重庆大学;2012年
6 王飞;文本分类相关算法的研究与实现[D];哈尔滨工程大学;2012年
7 李义;文本分类中特征加权方法研究[D];湖北工业大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
2 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
3 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
4 熊忠阳;黎刚;陈小莉;陈伟;;文本分类中词语权重计算方法的改进与应用[J];计算机工程与应用;2008年05期
5 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
6 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
7 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
8 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
9 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
10 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类系统的研究与实现[J];中文信息学报;2005年01期
中国博士学位论文全文数据库 前2条
1 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
2 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前1条
1 李正林;中文文本数据分类研究[D];上海师范大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
4 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
5 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
6 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
7 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
8 周世斌;白敬华;刘玉树;;统计流形上基于核近邻算法的文本分类研究[J];北京理工大学学报;2010年03期
9 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
10 黄文良;李石坚;刘菊新;徐从富;;一个大规模垃圾短信实时过滤系统[J];北京邮电大学学报;2008年03期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
5 周永健;郑玉明;廖湖声;;基于模糊聚类的文本分类器[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
6 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
7 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
8 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
9 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
10 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
6 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
7 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
8 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
9 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
10 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
5 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
6 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
7 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
8 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
9 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
10 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
3 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
4 李赟;黄开妍;任福继;钟义信;;维基百科的中文语义相关词获取及相关度分析计算[J];北京邮电大学学报;2009年03期
5 赵耀红;;基于向量空间模型的信息检索系统的研究与实现[J];长春大学学报;2009年08期
6 马甲林;张桂珠;刘金岭;;中英文文本分类系统异同因素的探讨[J];电脑学习;2011年02期
7 陈频;;基于自然语言处理的中文科技论文特征提取研究[J];电脑知识与技术(学术交流);2007年16期
8 陈频;;中文科技论文文本分类方法研究[J];电脑知识与技术;2009年25期
9 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
10 孙强;叶玉堂;邢同举;吴建平;周孟特;王智芳;;基于主成分分析法的人脸识别的探讨与研究[J];电子设计工程;2011年20期
中国博士学位论文全文数据库 前6条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
3 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
5 刘叶青;原始空间中支持向量机若干问题的研究[D];西安电子科技大学;2009年
6 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
2 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
3 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
4 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年
5 付玲玲;结合本体HowNet的中文文本分类研究[D];重庆大学;2011年
6 刘里;中文文本分类中特征描述及分类器构造方法研究[D];重庆大学;2006年
7 吴薇;大规模短文本的分类过滤方法研究[D];北京邮电大学;2007年
8 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
9 罗福星;增量学习朴素贝叶斯中文分类系统的研究[D];中南大学;2008年
10 赵妍妍;中文事件抽取的相关技术研究[D];哈尔滨工业大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
5 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
8 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
9 吴志峰,田学东;人名、机构名在基于概念的文本分类中的应用研究[J];河北大学学报(自然科学版);2004年06期
10 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
中国博士学位论文全文数据库 前1条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前2条
1 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
2 关晓蔷;基于决策树的分类算法研究[D];山西大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 张亮;郭桂蓉;庄钊文;何松华;马莉波;;雷达目标高分辨距离像数据预处理方法研究[J];电子学报;1998年06期
2 沈同圣;任建存;冯亚林;周晓东;;红外成像制导中目标识别方法探讨[J];红外与激光工程;1998年05期
3 刘守生,丁勇,胡寿松;一种特征提取新方法[J];信号处理;1999年S1期
4 李平,蒋振刚;神经网络对手写字符识别特征的提取[J];长春光学精密机械学院学报;2000年02期
5 孟国强;基于车辆牌照识别系统字符的特征提取方法研究[J];河南科学;2003年06期
6 邵云生,徐国华;雷达舰船目标的混合特征提取算法的设计与实现[J];舰船电子对抗;2004年02期
7 崔晨旸,石教英;三维模型检索中的特征提取技术综述[J];计算机辅助设计与图形学学报;2004年07期
8 张晓东,陈锋;基于非线性回归的自适应特征提取算法[J];阜阳师范学院学报(自然科学版);2004年02期
9 夏晓清,冯伟,赵荣椿;CPODW数字水印技术中的图像内容提取方法[J];计算机应用;2004年S2期
10 陈宇萍;外观设计专利图像检索系统研究[J];科技管理研究;2005年04期
中国重要会议论文全文数据库 前10条
1 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
4 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
5 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
6 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
7 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
9 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
10 郗长青;郑建明;李言;罗杰;;基于小波包分解的钻头磨损特征提取[A];制造技术自动化学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
3 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
4 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
5 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
6 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
7 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
8 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年
9 张东方;沙明;杨松松;人工神经网络在中药领域中的应用[N];中国医药报;2003年
10 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
中国博士学位论文全文数据库 前10条
1 冯坤;基于内积变换的机械故障特征提取原理与早期识别方法研究[D];北京化工大学;2012年
2 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
3 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
4 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
5 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
6 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
7 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
8 杨昂;生物数据特征提取方法及应用研究[D];湖南大学;2012年
9 蒋永华;旋转机械非平稳信号微弱特征提取方法研究[D];重庆大学;2010年
10 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
中国硕士学位论文全文数据库 前10条
1 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
2 雷自力;基于Pro/E的三维零件参数化建模和特征提取研究[D];华中科技大学;2011年
3 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
4 黄健;履带式车辆微多普勒效应与特征提取[D];国防科学技术大学;2009年
5 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年
6 栾岚;基于机理模型判据的图像中微弱特征提取方法研究及应用[D];东北大学;2009年
7 王菲;面向肺部CAD的特征提取、选择及分类方法研究[D];东北大学;2009年
8 郑睿;藻类细胞图像的特征提取与分类方法研究[D];杭州电子科技大学;2009年
9 李仁杰;高分辨率SAR图像目标三维特征提取与建模[D];国防科学技术大学;2010年
10 陈日晖;面向肺部CAD的三维ROI分割、特征提取与分类方法研究[D];东北大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026