收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于坐标下降法的半监督学习算法及其在文本分类中的应用

李璇  
【摘要】: 近年来,随着计算机以及网络技术的飞速发展,在社会生活的各个领域出现了大量的数据,如何在这些数据中提取有用的信息,几乎成为所有领域的共同需求。而获得有标记的数据是费时费力的,所以如何利用大量存在的未标记数据成为备受关注的问题。解决这一问题的半监督学习受到极大关注。 半监督支撑向量机(S3VM)主要的思想为将边界最大化的规则同时运用到已标记和未标记样本。自Joachims使用来解决文本分类问题后,得到广泛的推广。但是S3VM的目标函数是非凸的。这在解决S3VM时带来了很大的难题,因此很多近似算法应运而生。本文使用熵正则项替代未标记样本的损失函数,使得优化目标函数为凸函数。 坐标下降法在无约束优化问题上有着广泛的应用,但是在S3VM上的研究甚少。本文提出了使用坐标下降法求解S3VM的算法。该算法是一个逐步迭代的过程,在每次内部循环中只需要解决单变量的子优化问题,在解决子优化问题时使用牛顿线搜索法,算法最后收敛到全局最优解。文中给出了算法收敛性的证明。由于子优化问题每次只使用样本集的一个分量,这相对于使用整个样本集而言,大大减少了计算的复杂度。在实验中显示此算法较之前的支撑向量机算法在速度以及分类效率上有很大的改进。 作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础,文本分类技术有着广泛的应用前景。文本数据集维数很高,样本的量很大,但是文本数据集往往是离散的。使用坐标下降法对文本数据集进行分类,利用了文本的离散性,使得分类的效率较其他半监督分类算法有很大提高。本文使用文本数据集验证算法的分类效率。本文提出的算法在分类精度上比多项式混合模型以及基于图的算法有较大提高。不同的半监督支撑向量机算法中,本文的算法在时间复杂度上的降低是明显的,降低了两个数量级。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 牛罡;罗爱宝;商琳;;半监督文本分类综述[J];计算机科学与探索;2011年04期
2 胡荣;罗庆云;;SVM算法在文本分类中的研究[J];衡阳师范学院学报;2006年03期
3 夏士雄;李佑文;周勇;;一种半监督局部线性嵌入算法的文本分类方法[J];计算机应用研究;2010年01期
4 秦飞;杨燕;;寻找相似样本的小样本半监督学习[J];计算机工程与科学;2010年09期
5 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
6 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
7 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
8 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
9 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
10 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
11 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
12 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
13 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
14 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
15 王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期
16 董梅;胡学钢;;基于多特征选择的中文文本分类[J];计算机技术与发展;2007年07期
17 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
18 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期
19 陶兰,申军霞;文本信息自动分类系统ITC98(Ⅰ)──ITC98总体结构与编码子系统[J];中国农业大学学报;1999年04期
20 李钝,梁吉业;利用聚类和粗糙集进行文本分类研究[J];计算机工程与应用;2003年07期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 四川省畜牧科学研究院 易礼胜;饲料配方软件的算法[N];中国畜牧兽医报;2008年
3 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
4 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
5 希安;微软试水信息检索[N];经济日报;2004年
6 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
7 黄慧琴 陈松;阿尔戈马钢铁厂转炉工艺的改进措施[N];世界金属导报;2007年
8 记者 胡亚 通讯员 孟晋宝;我国陆表遥感产品验证实验完成[N];中国气象报;2008年
9 应晓敏 窦文华;技术架构[N];计算机世界;2003年
10 易水;IEEE 802.11i 提升无线网的安全[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
4 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
5 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
6 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
7 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
8 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
2 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
3 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
4 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
5 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
6 闫晨;KNN文本分类研究[D];燕山大学;2010年
7 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978