收藏本站
《华南理工大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于树分解的大规模半监督分类算法

吕浩然  
【摘要】:随着计算机技术的高速发展和互联网信息的指数增长,文本分类、网页分类和图像识别等实际问题面临新的挑战,也使得利用少量的已标注样本和大量未标注样本一起学习的大规模半监督分类具有广阔的应用前景。因此如何处理大规模半监督分类已成为模式识别、数据挖掘以及机器学习等相关研究领域备受关注的课题。 本文在分析国内外半监督分类算法的研究进展和发展方向的基础上,采用局部学习策略,利用聚类特征(CF)树组织大规模数据,提出了基于CF树分解和局部训练的半监督分类算法框架(CFTD-SSC)。该算法框架先利用CF树划分未标注数据集为一系列的局部子集,然后对每个训练子集采用某种局部半监督分类方法估计子集中未标注样本的标记。 接着本文在CFTD-SSC算法框架下,进一步研究如何将主流的半监督分类方法应用于局部学习。在S~3VM型算法方面,采用具有代表性的CCCP-S~3VM算法作为局部S~3VM分类器,并由此提出了CFTD-S~3VM算法。在基于图的方法方面,为了研究哪种图的方法适用于局部学习,采用不同的图构造方法和不同的标记传播规则,提出CFTD-LGC、CFTD-GFHF以及CFTD-LGT三种算法。 实验表明,CFTD-S~3VM是一种有效的大规模半监督局部学习算法;在局部图构造方面,CFTD-LGT采用的kNN-adaptionNN图要优于传统的kNN图;在局部标记传播规则方面,CFTD-LGC的传播规则要优于CFTD-GFHF的传播规则;相比PVM和AGR等优秀的基于图的大规模半监督分类算法,基于局部图的算法在性能上具有整体的优势,尤其是CFTD-LGC算法,不仅准确性同优秀的大规模半监督分类算法具有可比性,并且算法效率更为优越。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP181

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
2 史会峰,卢艳霞;基于多项式分布模型的Web文本分类[J];华北电力大学学报;2003年06期
3 任美睿;郭龙江;李金宝;;基于改进的向量空间模型的自动文本分类[J];哈尔滨商业大学学报(自然科学版);2006年01期
4 李焕荣,林健;基于一类分类方法的多类分类及其应用[J];华南理工大学学报(自然科学版);2004年08期
5 李晓宇;张新峰;沈兰荪;;支持向量机(SVM)的研究进展[J];测控技术;2006年05期
6 张曦煌;须文波;;基于增量学习的超球支持向量机设计[J];计算机工程与应用;2006年13期
7 钟清流;蔡自兴;;基于支持向量机的渐近式半监督式学习算法[J];计算机工程与应用;2006年25期
8 马琳,罗铁坚,叶世伟;一种基于转导的预测算法及其在软件性能测试中的应用[J];计算机工程;2005年16期
9 徐文龙;姚立红;潘理;倪佑生;;基于TSVM的网络入侵检测研究[J];计算机工程;2006年18期
10 陈文亮,朱慕华,朱靖波,姚天顺;基于Bootstrapping的文本分类模型[J];中文信息学报;2005年02期
中国重要会议论文全文数据库 前8条
1 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
2 Du-Seong Chang;Key-Sun Choi;;Causal Relation Extraction Using Cue Phrase and Lexical Pair Probabilities[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
3 Karl-Michael Schneider;;Learning to Filter Junk E-Mail from Positive and Unlabeled Examples[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
4 Hiroya Takamura;Manabu Okumura;;A Comparative Study on the Use of Labeled and Unlabeled Data for Large Margin Classifiers[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
5 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 陈宁昱;周雅倩;黄萱菁;吴立德;;利用未标注语料改进实体名识别性能[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 唐明珠;张远平;杨佳;;基于背景知识的SVM文本分类[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘广利;基于支持向量机的经济预警方法研究[D];中国农业大学;2003年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 叶航军;面向大规模图像库的索引和检索机制研究[D];清华大学;2003年
4 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
5 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
6 张永梅;基于融合的人脸识别方法研究[D];中北大学;2005年
7 马跃洲;基于电弧声信号的CO_2焊质量监控方法研究[D];兰州理工大学;2005年
8 万海平;模式识别中核方法若干问题研究[D];北京邮电大学;2006年
9 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
10 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
中国硕士学位论文全文数据库 前10条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
3 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
4 陆有忠;进化支持向量机及其在岩体边坡中的应用[D];宁夏大学;2004年
5 王晓峰;基于进化半监督式模糊聚类算法的入侵检测[D];西安电子科技大学;2005年
6 全德;基于潜在语义索引的文本分类技术的研究[D];东北大学;2005年
7 车志军;人工智能在搜索引擎资源获取中的应用[D];浙江大学;2006年
8 柳培林;基于向量空间模型的中文文本分类技术研究[D];大庆石油学院;2006年
9 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
10 于书翰;基于网页自动分类的搜索引擎研究[D];长春理工大学;2004年
【二级参考文献】
中国期刊全文数据库 前4条
1 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
2 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
3 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
4 郑春红,郑贵文,焦李成;基于FSVM的雷达多目标识别[J];系统工程与电子技术;2003年11期
【相似文献】
中国期刊全文数据库 前10条
1 张明卫;王波;张斌;朱志良;;基于相关系数的加权朴素贝叶斯分类算法[J];东北大学学报(自然科学版);2008年07期
2 胡学钢;朱珠;吴共庆;;新闻网页自动识别的相关特征研究[J];广西师范大学学报(自然科学版);2008年03期
3 于含迪;;非结构化数据分类整合在贵州项目网中的设计与实现[J];安顺学院学报;2010年03期
4 王斌;邵华清;刘振;;基于优化类中心分类算法的文本分类研究[J];科技传播;2011年18期
5 赵涓涓,陈俊杰;Internet信息过滤中用户个性化模式的构建[J];太原理工大学学报;2003年03期
6 方帅,王东署,迟健男,徐心和;视频监控系统中小运动目标分类算法[J];信息与控制;2005年02期
7 孔锐,张冰;基于核Fisher判决分析的高性能多类分类算法[J];计算机应用;2005年06期
8 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期
9 徐启华,杨瑞;一种新的软间隔支持向量机分类算法[J];计算机工程与设计;2005年09期
10 杨立;左春;王裕国;;基于语义距离的K-最近邻分类方法[J];软件学报;2005年12期
中国重要会议论文全文数据库 前10条
1 孙云山;张立毅;李艳琴;;基于模糊分类器的PAM盲均衡算法[A];四川省通信学会2005年学术年会论文集[C];2005年
2 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
3 李晓波;;集成分类对比:Bagging NB & Boosting NB[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
4 邢延铭;诸克军;李春平;;一种基于遗传算法和模糊规则的分类算法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
5 王毅军;张志广;李勇;高小榕;高上凯;杨福生;;2003年脑机接口数据竞赛论文之一——基于CSSD和FDA的单次手指运动诱发脑电分类算法[A];首届全国功能神经影像学和神经信息学研讨会论文汇编[C];2003年
6 傅言;郭振华;李乃民;;基于图像分析的中医色诊及在肝病上的研究[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 尧德中;廖祥;;基于支持向量机的脑电模式分类技术研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
8 谢永芳;蒋有为;唐明珠;;一种基于数据剪辑的半监督最邻近分类算法[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
9 杨敏;杜小勇;;hRIPPER:一种基于层次规则学习的文本分类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 张少波;刘明;贾晓静;朱卫东;;数据包分类算法研究与设计[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(下册)[C];2010年
中国重要报纸全文数据库 前10条
1 ;SecuiWALL独创分类算法[N];计算机世界;2002年
2 俞路石;中科大研究生解决网络数据包有效分类算法[N];中国教育报;2007年
3 ;锐捷RG-WALL系列防火墙[N];电脑商报;2004年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 ;百兆防火墙[N];计算机世界;2002年
6 ;MaxNet:本土化贴合市场[N];网络世界;2008年
7 刘宏伟;整合是一种趋势[N];中国计算机报;2004年
8 ;三星NXG全新系列防火墙安全和性能兼得[N];中国计算机报;2004年
9 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
10 蒋波;非结构化数据管理与知识提炼[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
2 贾银山;支持向量机算法及其在网络入侵检测中的应用[D];大连海事大学;2004年
3 吴广潮;基于聚类特征树的大规模分类算法研究[D];华南理工大学;2012年
4 骆成凤;中国土地覆盖分类与变化监测遥感研究[D];中国科学院研究生院(遥感应用研究所);2005年
5 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
6 唐勤;非均衡数据分类算法及其在助学贷款风险管理中的应用研究[D];华中科技大学;2012年
7 谢珺;二进制粒神经网络研究及其在故障诊断中的应用[D];太原理工大学;2009年
8 董旭初;Bayesian网的最优树分解研究[D];吉林大学;2011年
9 王永轩;事件相关脑电信号单导少次提取与分类算法[D];大连理工大学;2013年
10 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 吕浩然;基于树分解的大规模半监督分类算法[D];华南理工大学;2012年
2 黄金;聚类和分类技术在生物信息学中的应用[D];黑龙江大学;2005年
3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
4 方匡南;基于数据挖掘的分类和聚类算法研究及R语言实现[D];暨南大学;2007年
5 李坤;运动意识脑电分类及基于VC++的脑机接口实验系统[D];安徽大学;2007年
6 李伟森;数据挖掘在检察系统预防职务犯罪中的应用研究[D];重庆大学;2007年
7 黄茁;基于小波变换的心电图处理与分析研究[D];中南大学;2008年
8 李娟琴;呼叫中心数据挖掘平台的设计实现[D];山东大学;2008年
9 高冬玲;数据挖掘分类算法在学生信息中的应用研究[D];青岛大学;2009年
10 徐易;基于短文本的分类算法研究[D];上海交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026