收藏本站
收藏 | 论文排版

面向文本数据的半监督学习研究

朱岩  
【摘要】:随着计算机和存储技术的发展,电子文本数据呈现出海量性和杂乱无章性。为了从大量杂乱无章的文本数据中获取有用的信息,人们需要利用文本分类技术对文档数据进行有效的组织管理。传统的分类技术包括有监督的分类和无监督的聚类。有监督的分类需要大量标注样本的指导,然而标注文本数据费时费力,大规模标注不切实际。无监督的聚类由于缺少标注样本的指导,其性能还有待于进一步提高。因此,只需要少量标注样本和大量无标注样本的半监督学习应运而生,并受到人们的广泛关注。本文针对半监督文本分类领域中存在的数据标注问题、文本表示问题和学习模型设计问题进行研究。我们的创新点主要体现在以下几个方面: (1)由于标注文本数据费时费力,本文研究如何在受限条件下选择待标注样本及对待标注样本进行合理标注。为了使抽取的待标注样本更符合原始数据的分布,本文避免选择已标注样本的K近邻作为新一轮的标注样本。这种方法在一定程度上减少随机标注可能出现的小范围标注稠密的情况,使得分布在不同区域的样本有更多的标注机会。而对待标注文档进行人工标注时,我们考虑文档中单词包含的丰富信息,标注出每篇文档的关键词,进而得到每个类的类别关键词,将未标注文档和类别关键词进行匹配,匹配到的文档作为新的监督信息。 (2)通过研究,我们发现文本分类中的噪音单词在各类间分布较均衡。因此,本文提出了一种文本数据加权方法tf.sdf。该方法能够对类间分布不均衡的单词赋予较高的权重,对类间分布均衡的单词赋予较低的权重,进而消除噪音单词对文本分类算法性能的影响。为了在只有少量监督信息的情况下仍可对文本数据进行合理表示,本文将特征加权方法tf.sdf与基分类器相结合,给出了一种文本表示和分类相交互的半监督学习框架。这样,合理的文本表示能提高分类算法的性能,高性能的分类结果又能促进文本的更合理表示。 (3)考虑不同类型的成对约束在非负矩阵分解中所起的作用不同,本文提出了一种基于成对约束的多类型惩罚的非负矩阵分解。在这种新算法中,must-link约束主要控制数据压缩表示下的距离,cannot-link约束主要控制样本类别指示向量的相似度。实验表明多类型惩罚的非负矩阵分解可以提高半监督文本聚类的性能。 (4)为了扩大非负矩阵分解的应用范围,本文提出了一种基于成对约束的相似度矩阵分解方法,并在理论上证明了其收敛性。由于相似度矩阵分解的应用范围远大于基于原始数据的非负矩阵分解,本文将提出的方法应用于一般UCI数据、文本数据和社会网络数据。实验表明提出的基于成对约束的相似度矩阵分解方法好于其它半监督聚类算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李永忠;王汝山;张念贵;王玉雷;;基于半监督模糊聚类的入侵检测技术[J];江苏科技大学学报(自然科学版);2010年04期
2 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期
3 丁磊,钱云涛;不同程度的监督机制在自动文本分类中的应用[J];计算机应用与软件;2004年06期
4 张晨光;李玉鑑;;基于半监督学习的眉毛图像分割方法[J];计算机工程与应用;2009年21期
5 刘叶青;刘三阳;谷明涛;;一种多项式光滑的半监督支持向量机分类算法[J];计算机科学;2009年07期
6 杨绪兵;潘志松;陈松灿;;半监督型广义特征值最接近支持向量机[J];模式识别与人工智能;2009年03期
7 鲁珂,赵继东,叶娅兰,曾家智;一种用于图像检索的新型半监督学习算法[J];电子科技大学学报;2005年05期
8 罗进;周学君;;半监督学习中非标记数据的利用[J];湖北大学学报(自然科学版);2008年01期
9 曹慧;刘玉峰;;未标记样本在半监督学习中的应用方法研究[J];广西轻工业;2008年12期
10 王汝山;李永忠;张念贵;王玉雷;;半监督学习在入侵检测系统中的应用[J];广西师范大学学报(自然科学版);2009年03期
11 梁吉业;高嘉伟;常瑜;;半监督学习研究进展[J];山西大学学报(自然科学版);2009年04期
12 张念贵;李永忠;王汝山;;半监督聚类算法及其在入侵检测中的应用[J];科学技术与工程;2010年01期
13 赵莹;张健沛;杨静;王冠军;;一种改进的分枝定界半监督支持向量机学习算法[J];电子学报;2010年02期
14 李欢;;半监督学习及其在数据挖掘中的应用[J];电脑知识与技术;2010年27期
15 常志勇;刘叶青;谷明涛;;用于在线数据分类的半监督最接近支持向量机[J];计算机工程与应用;2010年29期
16 杨伟;方涛;许刚;;基于朴素贝叶斯的半监督学习遥感影像分类[J];计算机工程;2010年20期
17 梁军;陈龙;周卫琪;陶文倩;姚明;胥正川;;基于马尔科夫随机场和鲁棒误差函数的半监督分类研究[J];山东大学学报(理学版);2010年11期
18 王永;程灿;戴明军;孙永;;一种半监督支持向量机优化方法[J];工矿自动化;2010年12期
19 刘蓉;李红艳;;半监督学习研究与应用[J];软件导刊;2010年08期
20 李妍妍;李媛媛;叶世伟;;基于流形正则化的分类与回归算法及应用[J];计算机仿真;2007年10期
中国重要会议论文全文数据库 前10条
1 谷方明;刘大有;王新颖;;基于半监督学习的加权支持向量域数据描述方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 杨源;马云龙;林鸿飞;;基于权重标准化SimRank与半监督学习的产品属性归类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 朱松豪;梁志伟;;用半监督学习方法实现图像检索[A];第二十九届中国控制会议论文集[C];2010年
4 邱慧宁;黄剑;陈羽;赖剑煌;;基于UDP的半监督学习及其在人脸识别的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年
5 毕锦烟;李巍华;;基于半监督模糊核聚类的齿轮箱早期故障检测方法[A];第九届全国振动理论及应用学术会议论文摘要集[C];2007年
6 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
8 张召;业宁;业巧林;;基于配对约束的核半监督非线性降维算法[A];第五届全国信息检索学术会议论文集[C];2009年
9 王倩影;冯国灿;汤鑫;;δ-距离及其在半监督增强中的应用[A];第十五届全国图象图形学学术会议论文集[C];2010年
10 冯瑞;宋春林;;一种基于局部学习的复杂系统建模方法[A];2007中国控制与决策学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
2 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
3 王娇;多视图的半监督学习研究[D];北京交通大学;2010年
4 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
5 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
6 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年
7 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
8 赵志凯;半监督学习及其在煤矿瓦斯安全信息处理中的应用研究[D];中国矿业大学;2012年
9 任广波;基于半监督学习的遥感影像分类技术研究[D];中国海洋大学;2010年
10 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 褚镇飞;基于半监督学习的物体识别[D];上海交通大学;2010年
2 陈新勇;基于核策略的半监督学习方法研究[D];河北大学;2010年
3 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年
4 冯元佶;基于图的半监督学习的改进研究[D];湘潭大学;2010年
5 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年
6 刘伟涛;半监督学习方法及应用研究[D];山东大学;2011年
7 杨伟;半监督学习方法研究[D];国防科学技术大学;2011年
8 魏征丽;基于图半监督学习算法的研究及应用[D];西安电子科技大学;2012年
9 杨伟;基于半监督学习的遥感影像分类[D];上海交通大学;2010年
10 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 王;汇总通话、加速Web显示[N];中国计算机报;2001年
6 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
7 苏和;电子检务该如何推行[N];检察日报;2007年
8 ;BI的新方向[N];网络世界;2007年
9 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978