收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类中特征提取和特征加权方法研究

蒋健  
【摘要】: 随着近年来互联网技术和信息技术的飞速发展,人们可获取的数据量迅速增长。如何快速、准确、全面地从浩瀚的信息资源中寻找到所要的狭小领域内的相关信息内容,已经成为了一项十分有意义的课题。文本分类技术作为解决这一问题的关键技术之一,也成为了研究的热点。 文本分类是一个复杂的系统工程,一般包括文本预处理、特征降维、特征加权、分类器训练和分类器性能评估等几个过程。本文在对这些过程进行详细了解和研究的基础之上,重点探讨了特征降维和特征加权过程。 对高维的特征集进行降维是文本分类过程中的一个重要环节,它不仅可以提高分类器的速度,节省存储空间,还能够过滤一些无关属性,减少无关信息对文本分类过程的干扰,从而提高文本分类的精度和防止过拟合。特征降维可以分为两类:特征抽取和特征提取。特征提取因其方法简单、计算速度快,适合用来处理大规模的文本数据,在文本分类中得到了广泛的应用。本文详细研究了目前常用的特征提取方法,包括文档频数、互信息、信息增益、期望交叉熵、χ2统计量和文本证据权。本文分析了这些方法的各自的特点,针对这些方法的不足之处,结合类间集中度、类内分散度和类内平均频度,提出了一种新的特征提取方法。该方法突出了特征与文本类别的正相关关系,避免了考虑负相关情况所带来的干扰,综合考虑了特征和类别之间的联系,以及特征在类内出现的平均频度,是一种简单有效的特征提取方法。 特征加权过程,能够改善文本集合在向量空间中的分布状态,使得同类文本的空间结构更加紧凑,异类文本的空间结构更加松散,从而简化了从文本到类别的映射关系,有利于提高文本分类器的分类性能。本文研究了经典的特征加权方法——TF-IDF,分析了它由于未考虑特征项在类间和类内的分布情况而导致对稀有特征赋予较大权值,而对类别区分贡献大的特征赋予较小权值的不足之处。进而结合了类间集中度、类内分散度,提出一种TF-IDF公式的改进形式,来弥补原始TF-IDF方法的缺陷。 本文在中文文本分类实验平台上,通过多组对比实验来考察本文提出的新的特征提取方法和改进的TF-IDF方法的有效性。实验结果使用查全率、查准率和F1值等多项评价指标来衡量。结果表明新的特征提取方法能够取得比其他常见特征提取方法更优的降维效果,同时改进的TF-IDF特征加权方法的效果也要好于传统的TF-IDF方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张亮;郭桂蓉;庄钊文;何松华;马莉波;;雷达目标高分辨距离像数据预处理方法研究[J];电子学报;1998年06期
2 沈同圣;任建存;冯亚林;周晓东;;红外成像制导中目标识别方法探讨[J];红外与激光工程;1998年05期
3 刘守生,丁勇,胡寿松;一种特征提取新方法[J];信号处理;1999年S1期
4 李平,蒋振刚;神经网络对手写字符识别特征的提取[J];长春光学精密机械学院学报;2000年02期
5 孟国强;基于车辆牌照识别系统字符的特征提取方法研究[J];河南科学;2003年06期
6 邵云生,徐国华;雷达舰船目标的混合特征提取算法的设计与实现[J];舰船电子对抗;2004年02期
7 崔晨旸,石教英;三维模型检索中的特征提取技术综述[J];计算机辅助设计与图形学学报;2004年07期
8 张晓东,陈锋;基于非线性回归的自适应特征提取算法[J];阜阳师范学院学报(自然科学版);2004年02期
9 夏晓清,冯伟,赵荣椿;CPODW数字水印技术中的图像内容提取方法[J];计算机应用;2004年S2期
10 陈宇萍;外观设计专利图像检索系统研究[J];科技管理研究;2005年04期
11 李大鹏,张利群,赵岩松;红外无损检测中的裂纹特征提取和图形重建方法研究[J];计算机测量与控制;2005年07期
12 吴玉斌,徐刚;基于虚拟仪器的机器人视觉处理[J];光电技术应用;2005年05期
13 孙蕾,周明全,耿国华;基于医学图像的数学规划支持向量机[J];计算机工程;2005年19期
14 夏庆观,路红,赵茜,王东霞;基于IMAQ的零件图像特征提取和识别[J];机械设计与制造;2005年09期
15 刘丽华;自动人脸识别方法研究与展望[J];内江科技;2005年05期
16 杨晓敏,吴炜,黎涛,何小海;基于Gabor变换和支持向量机的车牌字符识别算法[J];四川大学学报(工程科学版);2005年05期
17 夏庆观,路红,陈桂;基于小波神经网络的零件图像特征提取和识别[J];仪器仪表学报;2005年S1期
18 王和勇;姚正安;李磊;;基于聚类的核主成分分析在特征提取中的应用[J];计算机科学;2005年04期
19 肖文定;张文栋;熊继军;;基于小波变换的被动声目标识别的研究[J];弹箭与制导学报;2005年S1期
20 程剑;应自炉;;基于二维主分量分析的面部表情识别[J];计算机工程与应用;2006年05期
中国重要会议论文全文数据库 前10条
1 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
4 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
5 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
6 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
7 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
9 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
10 郗长青;郑建明;李言;罗杰;;基于小波包分解的钻头磨损特征提取[A];制造技术自动化学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 冯坤;基于内积变换的机械故障特征提取原理与早期识别方法研究[D];北京化工大学;2012年
2 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
3 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
4 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
5 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
6 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
7 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
8 杨昂;生物数据特征提取方法及应用研究[D];湖南大学;2012年
9 蒋永华;旋转机械非平稳信号微弱特征提取方法研究[D];重庆大学;2010年
10 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
中国硕士学位论文全文数据库 前10条
1 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
2 雷自力;基于Pro/E的三维零件参数化建模和特征提取研究[D];华中科技大学;2011年
3 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
4 黄健;履带式车辆微多普勒效应与特征提取[D];国防科学技术大学;2009年
5 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年
6 栾岚;基于机理模型判据的图像中微弱特征提取方法研究及应用[D];东北大学;2009年
7 王菲;面向肺部CAD的特征提取、选择及分类方法研究[D];东北大学;2009年
8 郑睿;藻类细胞图像的特征提取与分类方法研究[D];杭州电子科技大学;2009年
9 李仁杰;高分辨率SAR图像目标三维特征提取与建模[D];国防科学技术大学;2010年
10 陈日晖;面向肺部CAD的三维ROI分割、特征提取与分类方法研究[D];东北大学;2009年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
3 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
4 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
5 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
6 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
7 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
8 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年
9 张东方;沙明;杨松松;人工神经网络在中药领域中的应用[N];中国医药报;2003年
10 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978