收藏本站
《国防科学技术大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类中特征选择技术的研究

王博  
【摘要】: 随着信息技术的发展,基于在线文本和电子文本的应用得到广泛普及,包括网络新闻检索、基于内容的垃圾邮件过滤、论坛舆情分析和博客话题发现等在内的多个领域已与人们的生活密不可分。为了有效地管理和利用文本信息,基于文本内容的分类逐渐成为备受关注的领域。而文本数据的高维性可能导致低效的计算,因此降维是文本分类过程中不可或缺的环节,已成为重点研究的技术。 特征选择是数据挖掘和模式识别等领域中一项重要的预处理步骤,通过删除与学习目标无关的特征、冗余特征或噪声特征,达到降维的目的。由于监督信息(类别信息)是文本分类的重要组成部分,文本分类所具有的类别关系复杂、类别分布不平衡、标注瓶颈和类别不确定等特点,为特征选择研究提出了更多的挑战。 本文以文本分类为背景,以特征选择为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的监督信息(类别信息),展开了对有监督学习模式下的层次化特征选择算法和半监督学习模式下特征选择算法的研究,并提出了一种适用于多种监督学习模式的特征选择方法,最后探讨了当监督信息不确定时选择特征的过程。主要研究成果包括: (1)在有监督学习模式下,针对由复杂的类别关系带来的问题,假设文本的类别由类树结构进行组织,提出了层次化文本分类中的特征选择算法FSRRH。设计了在不同层次上抽取训练集的方法,以解决类别分布不平衡的问题;采用标准化处理的信息增益方法,选择预测能力不同的特征子集;最后对传统的近似Markov毯进行改进,以支持在特征子集之间去除冗余特征的功能。实验结果表明,与平铺的方法以及其它层次化特征选择方法相比,在高维文本集中,算法FSRRH对分类性能有着较为显著的提高,减轻了不平衡的类别分布对特征选择的影响。 (2)在半监督学习模式下,针对文本分类中的“标注瓶颈”问题,提出一种半监督特征选择算法SFRSC。利用少量已标注(labeled)样本的同时兼顾大量的未标注(unlabeled)样本,基于相关集准则理论,有效判断扩展类标号的方向和范围。同时设计了综合计算类簇自相关度和类簇间离散度的复合标准,并以此评价特征。在真实数据集上的实验表明,与其它两个基准算法相比,SFRSC更能充分利用样本所携带的信息,具有良好的性能和可扩展性。 (3)在文本分类应用中,针对监督信息不同而导致需要重新设计特征选择算法的问题,从核方法的角度,详细地分析了有监督、半监督、无监督学习模式下特征选择间的一种内在联系,基于HSIC依赖性准则,提出一种可适用于多种监督学习模式的特征选择方法FSM_HSIC。通过核函数将(低维空间中的)非线性相关性映射为(高维空间中的)线性相关性,设计了Gram矩阵的不同构造方式,以支持方法FSM_HSIC在不同的监督学习模式下实例化为具体的算法。基于该方法,从核的角度对现有算法SPEC进行解释,并给出理论证明;同时基于该方法,设计了一种交互特征选择算法FSI。在仿真数据集和真实数据集上的实验表明,与若干基准算法和交互特征选择算法相比,算法FSI可以更有效地选出交互特征,并具有更好的稳定性和更快的收敛性。综上所述,该方法并不能囊括所有的算法,但具有重要的实用价值。 (4)上述研究成果均是基于精确数据,针对监督信息不确定的问题,提出了特征选择算法FSUNT。该算法适合的应用背景是:训练样本的类别不是精确的,而是具有某种已知的不确定性。采用已有的概率方式或模糊信息熵方式来表示不确定性,并以此为基础,利用HSIC依赖性准则,将对模糊性的量化集成在Gram矩阵的构造过程中。最后实验结果表明,与两个基准算法相比,算法FSUNT能更合理地衡量特征与不确定类别间的相关性,能更有效地挖掘模糊形式下的监督信息,并具有较好的可扩展性。 综上所述,本文的工作基于特征选择是由数据驱动和应用驱动的本质特点,围绕不同的监督信息,针对文本分类中特征选择面临的四个主要问题,提出了更为有效的解决方法,对于特征选择的研究和实用化具有一定的理论意义和应用价值。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前4条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
3 陈友;程学旗;李洋;戴磊;;基于特征选择的轻量级入侵检测系统[J];软件学报;2007年07期
4 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
【共引文献】
中国期刊全文数据库 前10条
1 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
2 张贵,乔春生;应用支持向量机回归确定岩体强度指标[J];北方交通大学学报;2004年01期
3 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
4 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
5 章新华;水下目标自动识别的核心技术[J];兵工学报;1998年03期
6 余鹏,封举富;基于多分辨率小波和高斯混合模型的纹理图像分割[J];北京大学学报(自然科学版);2005年03期
7 韩武鹏,陈文楷,刘正耀;模糊小波算法在纺织品瑕点检测中的应用[J];北京工业大学学报;2002年01期
8 张虹,陈文楷;一种基于小波矩的图像识别方法[J];北京工业大学学报;2004年04期
9 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
10 苏惠敏,高剑宏,陈哲;BP网络实时图像自动选取算法研究[J];北京航空航天大学学报;2002年02期
中国重要会议论文全文数据库 前10条
1 张韵;张燕;苗艳华;蒲金霞;;提升小波在笔迹鉴别中的应用[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 罗仁泽;王汝言;冉瑞生;;二维PCA法策略及证明[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 郭锋;刘丽丽;吕凝;;基于LLE和SVM的人像识别方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 熊建秋;邹长武;李祚泳;徐婷婷;汪嘉杨;;基于支持向量机的人均综合用水量预测[A];中国环境保护优秀论文集(2005)(上册)[C];2005年
6 周绮凤;林成德;;商业银行信用风险评估中多分类方法的比较[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 蒋琦;庄毅;谢东;;基于SVM分类器的SYN Flood攻击检测规则生成方法的研究[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 郭相科;刘进忙;曹学斌;张玉鹏;;子类独立分量分析在声目标识别中的应用[A];中国声学学会2007年青年学术会议论文集(上)[C];2007年
9 黄忠朝;陈真诚;赵于前;;基于支持向量机的阵发性房颤自动终止预测研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
10 寇凌岳;艾欣;邓慧琼;;基于FCM算法的连锁故障评价及路径划分方法研究[A];第十一届全国电工数学学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 吴艳;多传感器数据融合算法研究[D];西安电子科技大学;2003年
2 张润峰;FNS对MI大鼠HRV和心脏神经重构的作用及部分机制探讨[D];重庆医科大学;2004年
3 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
4 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
5 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
6 凌杰;公路动态称重系统的设计理论研究[D];长安大学;2001年
7 李剑;局部放电灰度图象识别特征提取与分形压缩方法的研究[D];重庆大学;2001年
8 孙涛;基于数据融合技术的两相流流型辨识与流量测量方法研究[D];浙江大学;2002年
9 郭满才;群体遗传变异的信息学模型研究[D];西北农林科技大学;2002年
10 李新;面向神经计算的视觉信息处理研究[D];西北工业大学;2002年
中国硕士学位论文全文数据库 前10条
1 王夏黎;视频交通流检测及车辆识别系统的设计与实现[D];西北大学;2001年
2 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
3 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
4 叶凌;基于语义的中文搜索引擎[D];吉林大学;2005年
5 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年
6 朱玮;IRT和规则空间在文本分类中的应用研究[D];江西师范大学;2005年
7 钟福金;语义Web服务发现及其应用研究[D];合肥工业大学;2005年
8 刘枫;数字图象压缩算法的应用研究[D];成都理工学院;2001年
9 张锐;基于人工神经网络理论的机械故障诊断技术研究[D];东北林业大学;2001年
10 王立;先进红外成像制导技术研究[D];西北工业大学;2001年
【同被引文献】
中国期刊全文数据库 前10条
1 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑;2001年04期
3 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
4 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
5 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
6 石洪波,王志海,黄厚宽,励晓健;一种限定性的双层贝叶斯分类模型[J];软件学报;2004年02期
7 郭小宾;王壮;胡卫东;;基于贝叶斯网络分类器的雷达辐射源识别方法[J];火力与指挥控制;2006年02期
8 武方方;赵银亮;蒋泽飞;;基于密度聚类的支持向量机分类算法[J];西安交通大学学报;2005年12期
9 罗文俊,李祥;多方安全矩阵乘积协议及应用[J];计算机学报;2005年07期
10 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
中国博士学位论文全文数据库 前9条
1 张葛祥;雷达辐射源信号智能识别方法研究[D];西南交通大学;2005年
2 张国柱;雷达辐射源识别技术研究[D];国防科学技术大学;2005年
3 廖东平;支持向量机方法及其在机载毫米波雷达目标识别中的应用研究[D];国防科学技术大学;2006年
4 谭璐;高维数据的降维理论及应用[D];国防科学技术大学;2005年
5 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
6 匡鹏飞;时间词语前后分句共现状态之研究[D];华中师范大学;2006年
7 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
8 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
9 王斌;图像检索中自动标注与快速相似搜索技术研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前8条
1 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
2 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年
3 吴巧敏;基于支持向量机的文本分类算法研究[D];湖南大学;2007年
4 江慧娜;中文搜索引擎的关键技术研究[D];北京化工大学;2007年
5 代向敏;中国教育不平等现状的实证分析[D];东北财经大学;2007年
6 刘伟;基于限定领域的问句相似度[D];天津师范大学;2008年
7 旺建华;中文文本分类技术研究[D];吉林大学;2007年
8 宗士强;潜在语义索引在飞机故障案例检索的中应用[D];南京航空航天大学;2003年
【二级参考文献】
中国期刊全文数据库 前1条
1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
【相似文献】
中国期刊全文数据库 前10条
1 龚静;曾莉;;用于文本分类的特征选择方法[J];湖南环境生物职业技术学院学报;2008年03期
2 袁剑锋;张启蕊;;医药信息文本分类系统中特征选择模块的研究[J];电脑知识与技术;2008年30期
3 洪亮;;文本分类中特征选择方法研究及分析[J];科技广场;2009年07期
4 林永民;朱卫东;;模糊kNN在文本分类中的应用研究[J];计算机应用与软件;2008年09期
5 吕震宇;赵爽;林永民;;kNN在文本分类中的应用研究[J];计算机与现代化;2008年11期
6 肖婷;唐雁;;改进的χ~2统计文本特征选择方法[J];计算机工程与应用;2009年14期
7 王博;贾焰;杨树强;周斌;;适用于不确定文本分类的特征选择算法[J];通信学报;2009年08期
8 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
9 刘健;钱猛;张维明;;基于Fisher线性判别模型的文本特征选择算法[J];国防科技大学学报;2008年05期
10 吕彦红;陈基漓;阮百尧;;基于遗传算法的中文自动分类特征选择[J];山东理工大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前10条
1 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
3 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
6 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
7 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
8 张小东;促销之十大常见误区(一)[N];黑龙江经济报;2006年
9 华泰证券 吴璟;权证投资:只买对的,不买便宜的[N];上海证券报;2008年
10 广西钦州灵山县灵城二小 纪雪林;小场地训练途中跑的方法[N];中国体育报;2008年
中国博士学位论文全文数据库 前10条
1 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
2 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
6 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
7 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
8 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
9 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
10 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
中国硕士学位论文全文数据库 前10条
1 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
2 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
3 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
4 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
5 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
6 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
7 陈超;基于支持向量机的中文文本分类的系统研究[D];武汉理工大学;2007年
8 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
9 王生新;基于支持向量机的文本分类研究[D];哈尔滨工程大学;2008年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026