收藏本站
《大连理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

迁移学习在文本分类中的应用研究

孟佳娜  
【摘要】:迁移学习方法是一种新的机器学习框架,它不同于传统的监督学习、无监督学习和半监督学习,该方法通过将某一源领域的标注数据样本和目标领域的未标注样本或少量的标注样本中学习到一个紧凑的、有效的表示,然后将学习到的特征表示方法应用到目标领域中。迁移学习没有像传统的机器学习那样要求训练数据与测试数据必需服从相同的分布,因此,迁移学习能够有效地在相似的领域或任务之间进行信息的共享和迁移。目前,迁移学习逐渐成为信息检索、文本挖掘和自然语言处理的热点话题,引起学术界和企业界的高度重视。 本文以文本分类为研究背景,以迁移学习为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的迁移信息和方法,展开了对迁移学习模式下的特征和样本重构方法的研究,并提出了几种适用于迁移学习的文本分类方法。主要研究成果包括: 1.提出一种基于特征映射的迁移学习方法。特征和样本是文本分类的两个重要方面,综合考虑这两种因素是非常重要的。本文提出的方法结合了基于特征和基于样本两种迁移学习方法。首先,该方法构建两个领域的公共特征子空间,通过基于互信息的方法得到公共特征中与测试集的主题因子最相关的特征,然后,在新的特征子空间下学习一个新的特征映射函数,通过构建的特征映射函数来对源领域和目标领域的数据重新赋权重,通过使用基于样本的方法完成了知识的迁移,从而降低了具有不同分布的数据之间的距离。实验中使用了为符合迁移学习要求所构造的三个文本分类的语料,实验结果显著的超过了一些传统的监督分类方法,从而验证了算法的有效性。 2.提出一种自适应迁移学习方法。该方法以奇异值分解为基础,计算了目标领域的特有特征和公共特征之间的相似度,根据特征之间的相似度值对训练集和测试集的数据进行重构,通过建立的新的训练模型,给测试集数据一个预测的标签,并自适应的选择目标领域的合适的样本加入到原有的训练集中,从而解决了原有的训练集的数据偏置问题。本文将该方法应用到欧洲机器学习/数据挖掘竞赛ECML/PKDD 2006 Discovery Challenge语料库中,取得了较好的实验结果,也验证了该方法的有效性。 3.提出一种基于图的迁移学习方法。基于图的方法具有谱图理论下的很好的性质,图方法种类很多,其中PageRank算法是一种被广泛使用的方法,这种排序策略已经被扩展到很多领域。本文以PageRank算法的思想为基本框架,通过使用源领域和目标领域的数据建构一个融合的图模型。源领域的数据可以用来取得目标领域数据的伪标签,目标领域的数据可以用来更新标签,同时在迭代计算中保留了上一次预测的标签信息,当算法收敛时,目标领域数据的预测标签为最终的结果。理论上,文中给出了算法收敛的证明,并且进行了模拟实验。实验中使用了Web文本分类、文本倾向性分析和垃圾邮件过滤的相关迁移学习语料,与监督和半监督方法相比,实验结果有显著的改善,也证明了该算法的有效性和普适性。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 董玉林;庞丽萍;夏重杭;;监督学习问题中的最优性条件与数值试验[J];高等学校计算数学学报;2005年S1期
2 陈志民;杨敬锋;陈其昌;张嘉琪;陈强;;融合监督学习与凝聚层次聚类的土地评价方法[J];计算机工程与应用;2007年18期
3 张钢;印鉴;程良伦;钟钦灵;;半监督多示例核[J];计算机科学;2011年09期
4 费越,汪力新,戴汝为;竞争监督学习法在集成型识别系统中的应用[J];自动化学报;1999年03期
5 袁优;张钢;;一种基于标签传播的半监督核学习算法[J];电脑与电信;2013年11期
6 汪力新;费越;戴汝为;;基于人机结合的竞争监督学习[J];模式识别与人工智能;1997年03期
7 蒋艳凰;周海芳;杨学军;;监督学习的发展动态[J];计算机科学;2003年07期
8 寿皓;;序列数据的监督学习方法综述[J];机电工程技术;2012年08期
9 黄德双;自监督学习子空间模式识别方法的统计特性分析[J];电子学报;1995年09期
10 周哲;;基于情感词典和监督学习的中文短评论情感分类[J];漳州师范学院学报(自然科学版);2013年04期
11 门昌骞;王文剑;;一种基于多学习器标记的半监督SVM学习方法[J];广西师范大学学报(自然科学版);2008年01期
12 许洪贵;赵琨;田英杰;;鲁棒半监督ν-支持向量分类机[J];系统科学与数学;2010年02期
13 郎为民;陈凯;张国峰;;监督学习在无线认知传感器网络中的应用[J];电信快报;2014年04期
14 陈立玮;冯岩松;赵东岩;;基于弱监督学习的海量网络数据关系抽取[J];计算机研究与发展;2013年09期
15 王继升;南柄飞;李淑芝;;一种基于有监督学习原理的Web服务选择方法[J];江西理工大学学报;2006年06期
16 司捷,周贵安,李函,韩英铎;基于梯度监督学习的理论与应用(Ⅰ)——基本算法[J];清华大学学报(自然科学版);1997年07期
17 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
18 张建波;朱敏琛;;基于监督学习的核拉普拉斯特征映射分类方法[J];福州大学学报(自然科学版);2011年01期
19 吴斌,王秉钦;反演启发函数的监督学习算法[J];吉林大学自然科学学报;2000年03期
20 梁燕;徐向阳;吴晓峰;;基于半监督的联合分类方法[J];计算机工程与设计;2008年09期
中国重要会议论文全文数据库 前1条
1 李军;孙金生;王执铨;;模型参考神经元控制[A];1996中国控制与决策学术年会论文集[C];1996年
中国博士学位论文全文数据库 前2条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 夏铮;基于图和网络的学习算法及其在系统生物学中的一些应用[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 郭佳骋;监督学习的话题模型[D];上海交通大学;2010年
2 张从乐;基于知识型数据的监督学习[D];上海交通大学;2008年
3 杨杰;监督主题模型的研究与应用[D];华中科技大学;2011年
4 李钢;代价敏感的支持向量机监督学习研究[D];南京师范大学;2007年
5 姚娜娜;基于机器学习的产品评论情感分类研究[D];首都师范大学;2013年
6 杨志武;多示例学习算法研究[D];郑州大学;2007年
7 甘海涛;有监督的模糊聚类算法研究[D];武汉工业学院;2010年
8 周峰;基于语义和监督学习的生物医学文献知识发现[D];大连理工大学;2010年
9 徐作英;基于半监督聚类算法的研究与应用[D];青岛大学;2010年
10 唐雪宁;便携式蛋白检测仪及其测试精度分析[D];长春理工大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978