收藏本站
《国防科学技术大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类中特征选择技术的研究

王博  
【摘要】: 随着信息技术的发展,基于在线文本和电子文本的应用得到广泛普及,包括网络新闻检索、基于内容的垃圾邮件过滤、论坛舆情分析和博客话题发现等在内的多个领域已与人们的生活密不可分。为了有效地管理和利用文本信息,基于文本内容的分类逐渐成为备受关注的领域。而文本数据的高维性可能导致低效的计算,因此降维是文本分类过程中不可或缺的环节,已成为重点研究的技术。 特征选择是数据挖掘和模式识别等领域中一项重要的预处理步骤,通过删除与学习目标无关的特征、冗余特征或噪声特征,达到降维的目的。由于监督信息(类别信息)是文本分类的重要组成部分,文本分类所具有的类别关系复杂、类别分布不平衡、标注瓶颈和类别不确定等特点,为特征选择研究提出了更多的挑战。 本文以文本分类为背景,以特征选择为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的监督信息(类别信息),展开了对有监督学习模式下的层次化特征选择算法和半监督学习模式下特征选择算法的研究,并提出了一种适用于多种监督学习模式的特征选择方法,最后探讨了当监督信息不确定时选择特征的过程。主要研究成果包括: (1)在有监督学习模式下,针对由复杂的类别关系带来的问题,假设文本的类别由类树结构进行组织,提出了层次化文本分类中的特征选择算法FSRRH。设计了在不同层次上抽取训练集的方法,以解决类别分布不平衡的问题;采用标准化处理的信息增益方法,选择预测能力不同的特征子集;最后对传统的近似Markov毯进行改进,以支持在特征子集之间去除冗余特征的功能。实验结果表明,与平铺的方法以及其它层次化特征选择方法相比,在高维文本集中,算法FSRRH对分类性能有着较为显著的提高,减轻了不平衡的类别分布对特征选择的影响。 (2)在半监督学习模式下,针对文本分类中的“标注瓶颈”问题,提出一种半监督特征选择算法SFRSC。利用少量已标注(labeled)样本的同时兼顾大量的未标注(unlabeled)样本,基于相关集准则理论,有效判断扩展类标号的方向和范围。同时设计了综合计算类簇自相关度和类簇间离散度的复合标准,并以此评价特征。在真实数据集上的实验表明,与其它两个基准算法相比,SFRSC更能充分利用样本所携带的信息,具有良好的性能和可扩展性。 (3)在文本分类应用中,针对监督信息不同而导致需要重新设计特征选择算法的问题,从核方法的角度,详细地分析了有监督、半监督、无监督学习模式下特征选择间的一种内在联系,基于HSIC依赖性准则,提出一种可适用于多种监督学习模式的特征选择方法FSM_HSIC。通过核函数将(低维空间中的)非线性相关性映射为(高维空间中的)线性相关性,设计了Gram矩阵的不同构造方式,以支持方法FSM_HSIC在不同的监督学习模式下实例化为具体的算法。基于该方法,从核的角度对现有算法SPEC进行解释,并给出理论证明;同时基于该方法,设计了一种交互特征选择算法FSI。在仿真数据集和真实数据集上的实验表明,与若干基准算法和交互特征选择算法相比,算法FSI可以更有效地选出交互特征,并具有更好的稳定性和更快的收敛性。综上所述,该方法并不能囊括所有的算法,但具有重要的实用价值。 (4)上述研究成果均是基于精确数据,针对监督信息不确定的问题,提出了特征选择算法FSUNT。该算法适合的应用背景是:训练样本的类别不是精确的,而是具有某种已知的不确定性。采用已有的概率方式或模糊信息熵方式来表示不确定性,并以此为基础,利用HSIC依赖性准则,将对模糊性的量化集成在Gram矩阵的构造过程中。最后实验结果表明,与两个基准算法相比,算法FSUNT能更合理地衡量特征与不确定类别间的相关性,能更有效地挖掘模糊形式下的监督信息,并具有较好的可扩展性。 综上所述,本文的工作基于特征选择是由数据驱动和应用驱动的本质特点,围绕不同的监督信息,针对文本分类中特征选择面临的四个主要问题,提出了更为有效的解决方法,对于特征选择的研究和实用化具有一定的理论意义和应用价值。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

免费申请
【引证文献】
中国期刊全文数据库 前2条
1 黄章益;刘怀亮;;一种基于语义的中文文本特征降维技术研究[J];情报杂志;2011年S2期
2 胡昌平;陈果;;共词分析中的词语贡献度特征选择研究[J];现代图书情报技术;2013年Z1期
中国博士学位论文全文数据库 前3条
1 王科平;自动图像标注的关键技术研究[D];北京邮电大学;2011年
2 贾哲;分布式环境中信息挖掘与隐私保护相关技术研究[D];北京邮电大学;2012年
3 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前9条
1 夏青松;基于改进哈希算法的快速KNN文本分类方法[D];安徽大学;2012年
2 廖朝阳;基于直推式学习和迁移学习方法改进的支持向量机分类方法及应用研究[D];西安电子科技大学;2012年
3 王飞;文本分类相关算法的研究与实现[D];哈尔滨工程大学;2012年
4 李可;文献自动分类的文献交流平台的设计与实现[D];北京化工大学;2013年
5 张琴琴;垃圾邮件在对抗中的检测[D];华南理工大学;2013年
6 王强;非均衡文本分类的特征选择研究[D];南京师范大学;2013年
7 黄娟娟;基于KNN的文本分类特征选择与分类算法的研究与改进[D];厦门大学;2014年
8 罗常泳;基于内容的垃圾邮件检测方法研究[D];浙江大学;2014年
9 路凯;基于综合比率因子的互信息特征选择方法的改进[D];华中师范大学;2014年
【参考文献】
中国期刊全文数据库 前4条
1 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
2 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
3 陈友;程学旗;李洋;戴磊;;基于特征选择的轻量级入侵检测系统[J];软件学报;2007年07期
4 彭岩;张道强;;半监督典型相关分析算法[J];软件学报;2008年11期
【共引文献】
中国期刊全文数据库 前10条
1 郑继绍;朱文兴;;最优特征子集的遗传算法求解[J];莆田学院学报;2006年02期
2 林大辉;陈秋妹;宁正元;;基于支持向量机的栗属树种分类研究[J];莆田学院学报;2009年05期
3 宋婉娟;;基于支持向量机的手写数字串识别[J];湖北第二师范学院学报;2010年02期
4 刘海峰;王元元;张学仁;;文本分类中一种改进的特征选择方法[J];情报科学;2007年10期
5 张野;杨建林;;基于KNN和SVM的中文文本自动分类研究[J];情报科学;2011年09期
6 王雅蕾;王君泽;王国华;徐晓林;;问答服务中的基于类文档排名的问题分类算法[J];情报科学;2012年02期
7 孙蕾;温有奎;;一种改进的SVM算法在决策分析中的应用[J];情报理论与实践;2006年06期
8 韩毅;张克菊;金碧辉;;集成概念空间与潜在语义索引的文本聚类检索研究[J];情报理论与实践;2009年06期
9 庞观松;蒋盛益;;文本自动分类技术研究综述[J];情报理论与实践;2012年02期
10 李萌;孙济庆;;基于多Agent协作的自动分类知识库研究[J];情报探索;2009年05期
中国重要会议论文全文数据库 前10条
1 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
5 胡清华;常军涛;鲍文;于达仁;;高超声速发动机进气道起动/不起动模式分析[A];第二十九届中国控制会议论文集[C];2010年
6 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Discontinuous Piecewise Parametric Modeling and Compensation Control for Manipulator Systems with Friction[A];中国自动化学会控制理论专业委员会B卷[C];2011年
8 王春林;;灰熔点预测建模研究[A];中国自动化学会控制理论专业委员会B卷[C];2011年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
8 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
9 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
10 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
9 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
10 陈楠楠;互动音乐桌[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 侯汉清;;分类法的发展趋势简论[J];情报科学;1981年01期
2 岳涛;汉语自动分词技术的最新发展及其在信息检索中的应用[J];情报杂志;2005年04期
3 吕震宇;林永民;赵爽;朱卫东;;基于同义词词林的文本特征选择与加权研究[J];情报杂志;2008年05期
4 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
5 石洪波,王志海,黄厚宽,励晓健;一种限定性的双层贝叶斯分类模型[J];软件学报;2004年02期
6 张翔;肖小玲;徐光祐;;基于样本之间紧密度的模糊支持向量机方法[J];软件学报;2006年05期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
8 陈友;程学旗;李洋;戴磊;;基于特征选择的轻量级入侵检测系统[J];软件学报;2007年07期
9 徐燕;李锦涛;王斌;孙春明;;基于区分类别能力的高性能特征选择方法[J];软件学报;2008年01期
10 王梅;周向东;张军旗;许红涛;施伯乐;;基于扩展生成语言模型的图像自动标注方法[J];软件学报;2008年09期
中国重要会议论文全文数据库 前1条
1 李卫东;杨炳儒;李龙星;曲文龙;;基于中心词位置的VSM文本分类算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
4 田秀霞;数据库服务中保护隐私的访问控制与查询处理[D];复旦大学;2011年
5 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
6 谭璐;高维数据的降维理论及应用[D];国防科学技术大学;2005年
7 张国柱;雷达辐射源识别技术研究[D];国防科学技术大学;2005年
8 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
9 张葛祥;雷达辐射源信号智能识别方法研究[D];西南交通大学;2005年
10 匡鹏飞;时间词语前后分句共现状态之研究[D];华中师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
2 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
3 曾一平;中文文本情感分类的研究[D];北京交通大学;2011年
4 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年
5 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
6 金艳伟;基于马尔可夫随机场的蒙古文信息检索模型研究[D];内蒙古大学;2011年
7 柯丽;基于频繁共现熵的跨语言网页自动分类研究[D];江西师范大学;2011年
8 贺爱香;决策树在应用型本科高校就业管理中的应用研究[D];安徽大学;2011年
9 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
10 周城;面向中文Web评论的情感分析技术研究[D];国防科学技术大学;2011年
【二级引证文献】
中国期刊全文数据库 前1条
1 杨峰;;面向高维信息可视化的顺序映射降维方法[J];情报理论与实践;2014年05期
中国博士学位论文全文数据库 前2条
1 李晓旭;基于概率主题模型的图像分类和标注的研究[D];北京邮电大学;2012年
2 刘杰;食品安全突发事件跨媒体信息的语义分析与分类研究[D];北京邮电大学;2013年
【二级参考文献】
中国期刊全文数据库 前4条
1 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
2 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
3 饶鲜,董春曦,杨绍全;基于支持向量机的入侵检测系统[J];软件学报;2003年04期
4 李建中,李金宝,石胜飞;传感器网络及其数据管理的概念、问题与进展[J];软件学报;2003年10期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026