收藏本站
《山东师范大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

信息过滤系统中特征选择算法的研究

王美方  
【摘要】: 随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息就是当前信息科学技术领域面临的一大挑战。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术,可以在较大程度上解决信息杂乱的现象,方便用户准确地定位所需信息。目前,对于信息过滤技术的研究,大多数研究者的精力主要放在各种不同分类方法的研究与改进上。然而,特征选择一直是网络信息过滤中的基础性工作,而且是一项瓶颈技术。因此,对特征选择算法的研究也是十分必要的。 目前常用的特征选择算法都直接利用了特征之间的条件独立性假设,通过构造一个评价函数,单独对特征集的每个特征进行评价,但是由于没有直接考虑特征的类别相关性,也没有考虑特征子集的冗余性,这些方法选择的特征子集在类别区分能力上往往存在着冗余,导致最终分类效果不佳。 本文主要针对信息过滤系统中特征选择算法的相关问题,在如下几个方面进行了研究和讨论: 1、对常用的特征选择方法的优点和缺点进行了分析,并针对存在的不足之处指出了相应的改进方向。 本文首先对特征选择技术做了综合分析,并着重介绍了特征选择技术的框架。目前常用的几种特征选择方法各有所长,亦各有所短,文中从计算复杂度和分类效果出发,分析了它们的优缺点,并指出了可能导致的原因所在。另外,根据相关文献资料,列举出了常用特征选择算法的对比实验结论。这与本文最后的实验结果大致相同。 2、从特征相关性和冗余性定义出发,提出了一种特征选择框架FSBC(feature selection based on correlation),即把特征选择过程分两步进行:第一步选取类别相关的特征子集;第二步通过冗余分析,去除候选特征子集中的冗余特征,最终获得优化特征子集。 首先,选取类别相关特征时,本文根据这样一个原则构造评价函数来选取特征项:如果一个特征项t在一个类别的文档中频繁出现,而在其它类别中很少出现的话,那么该特征项t能够很好的代表这个类别,这样的特征项应该赋予较高的权值,并选来作为该类别的特征词,以区别于其它类别的文档。另外,文中引入了TFIDF权重计算的思想,考虑将词频和文档频率结合起来共同作为评价特征项的依据。 其次,进行冗余分析时,本文采用聚类方法中常用的K-Means算法作为去冗余的核心算法,针对该算法中的初始簇中心的选择及初始簇个数的设置问题进行了相应的改进,使类K-Means算法更有效的减少特征集的冗余性。 3、最后,将所提出的特征选择策略在网络信息过滤平台上进行了实验测试,并取得了令人满意的测试效果。 本文将特征选择框架FSBC应用于网络信息过滤系统,并与信息增益(IG)和CHI统计方法进行了实验对比。实验表明,FSBC方法在准确率和查全率上要好于其它两种方法,尤其在特征维数较高时取得了不错的实验效果。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP311.52

【相似文献】
中国期刊全文数据库 前10条
1 兰芸;李宝林;;基于协同演化遗传算法的文本特征获取方法[J];计算机工程与应用;2006年05期
2 兰芸,李宝林;一种基于粗集理论的文本特征约简新方法[J];计算机工程与应用;2005年30期
3 房敏;;高校数字图书馆个性化服务综述[J];科技创新导报;2010年33期
4 徐义峰;蒋慧新;周浩;;基于Web的信息过滤模型研究[J];商场现代化;2006年31期
5 姚磊岳;熊建英;;一种基于中文分词算法的信息过滤技术[J];科技广场;2007年07期
6 宋媛媛,孙坦;由信息过滤引发的基于知识的过滤机制构想[J];图书情报工作;2005年03期
7 易明;王学东;;基于领域本体的数字图书馆信息过滤模型研究[J];中国图书馆学报;2009年03期
8 周二虎;张水平;谢必昌;;信息过滤技术在智能信息推送系统中的应用[J];软件导刊;2010年01期
9 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
10 陈伏虎,宫先仪;遗传与互信息混合算法用于水声目标特征选择[J];信号处理;1997年03期
中国重要会议论文全文数据库 前10条
1 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
4 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
5 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
8 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 周志红;周新聪;严新平;袁成清;;磨粒特征参数的评价与优化方法研究[A];2006全国摩擦学学术会议论文集(一)[C];2006年
10 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
3 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
6 曾革楠;遏止网络犯罪媒体责无旁贷[N];中国新闻出版报;2007年
7 ;提供一个纯净的网络空间[N];中国电脑教育报;2002年
8 张小东;促销之十大常见误区(一)[N];黑龙江经济报;2006年
9 尹训宁;部分即时通讯软件的特色[N];中国知识产权报;2006年
10 华泰证券 吴璟;权证投资:只买对的,不买便宜的[N];上海证券报;2008年
中国博士学位论文全文数据库 前10条
1 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
2 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
3 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
4 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
5 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
6 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
7 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
8 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
9 黄东山;特征选择及半监督分类方法研究[D];华中科技大学;2011年
10 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
中国硕士学位论文全文数据库 前10条
1 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
2 吕志龙;基于遗传算法的自适应文本过滤方法的研究[D];哈尔滨工程大学;2008年
3 房一鸣;用分类树算法进行上市公司评级的实证研究[D];对外经济贸易大学;2006年
4 刘何秀;神经网络集成算法的研究[D];中国海洋大学;2009年
5 张隆;基于信息论的特征选择和分类算法研究[D];西南农业大学;2005年
6 侯小静;贝叶斯分类器研究及其在Web文档分类中的应用[D];郑州大学;2005年
7 秦永;遥感影像特征提取与选择及在影像分类中的应用[D];辽宁工程技术大学;2005年
8 刘宜萍;基于特征选择的多因素时间序列预测模型研究[D];合肥工业大学;2006年
9 杨打生;特征选择的信息论算法研究[D];东南大学;2005年
10 庞宵;信息熵蚁群算法在特征提取和图像识别中的应用[D];辽宁科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026