收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

失衡样本分类问题的自动过滤算法的研究

龚薇  
【摘要】:失衡样本,即不平衡的数据集,是指在一个数据集中不同类样本的数量相差悬殊。研究表明不平衡数据集严重影响了很多传统机器学习算法的分类性能,特别是少数类的分类性能可能很差。同时,不平衡数据集还导致训练分类器的速度过慢。然而在现实世界中,许多数据集都是不平衡的,甚至不平衡的程度很严重:有些数据集中只有3%-5%的少数类样本,例如多媒体语义分类,信息检索,医疗检测等。此外,人们通常更关心数据集中的少数类样本,例如信息检索中与关键字相关的文档总是占很少数,所以人们更希望少数类有很好的分类性能。由于传统的机器学习分类算法不能满足在现实中的分类应用性能良好,因此失衡样本问题迫切需要得到解决。 为了解决失衡样本所带来的以上问题,本文首先提出了过滤数据集中的样本以平衡数据集的思想。这个思想希望通过过滤失衡样本中的对分类没有帮助的多数类样本,从而拉小两类样本数量的差异,使数据集平衡并提高机器学习算法的效果。 为了实现这个思想,本文又提出了一个新颖的过滤规则提取算法。该算法自动从失衡的训练集中提取规则,这些规则能有效的去除样本空间中远离分类边界的没有用的多数类,尽量保留少数类,最后使得数据集平衡。 在实验中,首先提取过滤规则,之后使用提取的规则过滤失衡数据集,最后用SVM对过滤后的训练集训练分类器。此外,本文还将该思想和算法应用于自动提取新闻图片中。从实验结果可以看出: 1)本文提出的过滤样本平衡数据集的方法是可行的、有效的。 2)自动规则提取算法提取出的规则能有效的过滤失衡样本中无用的多数类,几乎不过滤少数类,最后达到平衡数据集的效果 3)不平衡数据集使用规则过滤后,再使用SVM进行分类,能提高其分类性能,同时明显降低训练分类器的时间。 4)实验还证明了使用规则过滤后分类数据集比代价敏感学习方法无论在分类性能还是在训练时间上都更具优越性。 5)最后,实验显示,本文提出的过滤规则提取算法能在自动提取新闻图片的应用中使用并得到好的性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邹晓红;李甲;郭景峰;柴然;;基于特征索引的图相似查询过滤算法[J];计算机工程;2011年14期
2 叶晓东,朱兆达;中值滤波的快速算法[J];南京航空航天大学学报;1997年02期
3 刘伟成,焦玉英;网络信息过滤的方法与相关技术研究[J];现代图书情报技术;2002年03期
4 潘伟洪;曾纪瑶;;教学评估系统的数据过滤算法的设计与实现[J];电脑知识与技术(学术交流);2006年14期
5 吴为民;;面向粗集的数据过滤方法讨论[J];科技资讯;2007年32期
6 廖小平;王志坚;刘山;;基于XML的发布/订阅型系统中过滤算法的改进[J];电脑开发与应用;2008年12期
7 吴海珍;陈沅涛;;基于超级节点的P2P信任模型[J];计算机工程;2009年11期
8 管建和;邓刚;;用贝叶斯算法实现垃圾邮件过滤[J];电脑编程技巧与维护;2006年06期
9 周文刚;孙挺;;Web页文本信息语义过滤系统设计与实现[J];周口师范学院学报;2007年02期
10 何苗;全宇;;基于关键词的文本内容过滤算法的改进[J];微计算机应用;2007年08期
11 张晓琳;李宏辉;崔敏;谭跃生;;XML数据流查询处理技术[J];情报杂志;2008年09期
12 陈广福;蔡国永;林航;王瑞丽;刘国宾;;多Agent系统中基于狄利克雷分布的信任模型[J];计算机工程;2011年14期
13 周云华,祖耀,李剑川;网络接口部件(NIU)关键技术的研究[J];计算机应用研究;1999年09期
14 赵海龙;董云耀;;小灵通短消息高速过滤中心研究及实现[J];计算机与数字工程;2007年06期
15 程基鹏;;一个网页过滤改进算法的应用与实现[J];电脑知识与技术;2009年33期
16 傅鹤岗;彭晋;;基于模范用户的改进协同过滤算法[J];计算机工程;2011年03期
17 余洁;张国宁;秦昆;杨海全;;LIDAR数据的过滤方法探讨[J];地理空间信息;2006年04期
18 郑先荣;曹先彬;;线性逐步遗忘协同过滤算法的研究[J];计算机工程;2007年06期
19 杨杉;何跃;颜锦江;;基于贝叶斯的反垃圾邮件技术探讨[J];网络安全技术与应用;2007年08期
20 周康;魏传佳;刘朔;王防修;;可满足性问题的闭环DNA算法[J];华中科技大学学报(自然科学版);2009年07期
中国重要会议论文全文数据库 前10条
1 赵勇;高凤荣;邢春晓;;基于用户权威的协作过滤算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 曾春;周立柱;邢春晓;;基于近邻法的协作过滤算法的改进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李俊薇;杨青;张连发;黄宇颖;;基于贝叶斯定理的个性化体检网站的研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
5 李俊薇;杨青;张连发;黄宇颖;;基于贝叶斯定理的个性化体检网站的研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
6 陈志文;姜建国;王开云;;网络入侵检测系统警报过滤算法设计[A];中国工程物理研究院科技年报(2005)[C];2005年
7 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
9 焦芬芬;章勇;;基于聚类分析的过滤算法在RSS信息服务中的研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
10 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 张亮;推荐系统中协同过滤算法若干问题的研究[D];北京邮电大学;2009年
2 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
3 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
4 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年
5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
6 聂国梁;流数据统计算法研究[D];华中科技大学;2006年
7 史旻昱;基于RSS的个性化网络广告推荐系统研究[D];华中科技大学;2008年
8 张富国;基于信任的电子商务个性化推荐关键问题研究[D];江西财经大学;2009年
9 王铎;制造业产品配置管理的若干关键技术研究[D];吉林大学;2009年
10 夏虎;移动社交网络结构和行为研究及其应用[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 孙德才;相似字符串匹配过滤算法研究[D];湖南大学;2009年
2 林泳;基于GPU的并行协同过滤算法及其应用[D];华南理工大学;2012年
3 代金龙;协同过滤算法中数据稀疏性问题研究[D];重庆大学;2013年
4 李惠民;电子商务推荐系统中协同过滤算法的研究[D];吉林大学;2011年
5 龚瑞君;多阶段协作过滤算法应用于移动商务的研究[D];西南财经大学;2011年
6 蔡观洋;个性化推荐中协同过滤算法的改进研究[D];吉林大学;2013年
7 石婷;推荐系统协同过滤算法的改进[D];云南大学;2014年
8 沈浅;电子商务推荐系统中协调过滤算法的分析与研究[D];南京理工大学;2011年
9 王强强;基于项目与情绪的协同过滤算法研究与实现[D];北京邮电大学;2013年
10 周军军;基于随机游走和聚类平滑的两阶段协同过滤算法[D];江西师范大学;2011年
中国重要报纸全文数据库 前9条
1 ;联想网御百兆防火墙[N];计算机世界;2002年
2 ;基于CAP 2+技术的iMSC新业务[N];人民邮电;2001年
3 艾文;反垃圾邮件 呼唤技术标准[N];中国计算机报;2004年
4 中国反垃圾邮件联盟 王兴宇 叶豪;反垃圾邮件方案谁堪重任?[N];计算机世界;2004年
5 王翌;关于“垃圾桶”的两个悖论[N];计算机世界;2004年
6 ;“快钱”的速度[N];网络世界;2005年
7 ;天澄信息过滤系统协助短信监控管理[N];人民邮电;2004年
8 刘海英;快速搜索技术可提高检索速度20倍[N];科技日报;2009年
9 ;盈世科技:布局移动互联网[N];中国计算机报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978