收藏本站
《大连理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

迁移学习在文本分类中的应用研究

孟佳娜  
【摘要】:迁移学习方法是一种新的机器学习框架,它不同于传统的监督学习、无监督学习和半监督学习,该方法通过将某一源领域的标注数据样本和目标领域的未标注样本或少量的标注样本中学习到一个紧凑的、有效的表示,然后将学习到的特征表示方法应用到目标领域中。迁移学习没有像传统的机器学习那样要求训练数据与测试数据必需服从相同的分布,因此,迁移学习能够有效地在相似的领域或任务之间进行信息的共享和迁移。目前,迁移学习逐渐成为信息检索、文本挖掘和自然语言处理的热点话题,引起学术界和企业界的高度重视。 本文以文本分类为研究背景,以迁移学习为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的迁移信息和方法,展开了对迁移学习模式下的特征和样本重构方法的研究,并提出了几种适用于迁移学习的文本分类方法。主要研究成果包括: 1.提出一种基于特征映射的迁移学习方法。特征和样本是文本分类的两个重要方面,综合考虑这两种因素是非常重要的。本文提出的方法结合了基于特征和基于样本两种迁移学习方法。首先,该方法构建两个领域的公共特征子空间,通过基于互信息的方法得到公共特征中与测试集的主题因子最相关的特征,然后,在新的特征子空间下学习一个新的特征映射函数,通过构建的特征映射函数来对源领域和目标领域的数据重新赋权重,通过使用基于样本的方法完成了知识的迁移,从而降低了具有不同分布的数据之间的距离。实验中使用了为符合迁移学习要求所构造的三个文本分类的语料,实验结果显著的超过了一些传统的监督分类方法,从而验证了算法的有效性。 2.提出一种自适应迁移学习方法。该方法以奇异值分解为基础,计算了目标领域的特有特征和公共特征之间的相似度,根据特征之间的相似度值对训练集和测试集的数据进行重构,通过建立的新的训练模型,给测试集数据一个预测的标签,并自适应的选择目标领域的合适的样本加入到原有的训练集中,从而解决了原有的训练集的数据偏置问题。本文将该方法应用到欧洲机器学习/数据挖掘竞赛ECML/PKDD 2006 Discovery Challenge语料库中,取得了较好的实验结果,也验证了该方法的有效性。 3.提出一种基于图的迁移学习方法。基于图的方法具有谱图理论下的很好的性质,图方法种类很多,其中PageRank算法是一种被广泛使用的方法,这种排序策略已经被扩展到很多领域。本文以PageRank算法的思想为基本框架,通过使用源领域和目标领域的数据建构一个融合的图模型。源领域的数据可以用来取得目标领域数据的伪标签,目标领域的数据可以用来更新标签,同时在迭代计算中保留了上一次预测的标签信息,当算法收敛时,目标领域数据的预测标签为最终的结果。理论上,文中给出了算法收敛的证明,并且进行了模拟实验。实验中使用了Web文本分类、文本倾向性分析和垃圾邮件过滤的相关迁移学习语料,与监督和半监督方法相比,实验结果有显著的改善,也证明了该算法的有效性和普适性。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP181;TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 张倩;李海港;李明;程玉虎;;基于多源动态TrAdaBoost的实例迁移学习方法[J];中国矿业大学学报;2014年04期
中国博士学位论文全文数据库 前3条
1 谭琦;面向跨领域文档分类的异构迁移学习算法研究[D];华南理工大学;2013年
2 张倩;基于知识表达的迁移学习研究[D];中国矿业大学;2013年
3 孙伟;基于迁移学习的文本分类算法研究[D];中国矿业大学(北京);2013年
中国硕士学位论文全文数据库 前4条
1 李炜;面向迁移学习的文本特征提取[D];天津大学;2012年
2 马凤闸;基于迁移学习的中文评论情感分类方法研究[D];大连理工大学;2012年
3 陆鑫伟;基于迁移学习的雷达辐射源识别研究[D];西安电子科技大学;2012年
4 李可;文献自动分类的文献交流平台的设计与实现[D];北京化工大学;2013年
【参考文献】
中国期刊全文数据库 前5条
1 王燕霞;邓伟;;基于级连神经网络和SVD的文本分类新模型[J];计算机工程与应用;2010年26期
2 陈炯,张永奎;一种基于词聚类的中文文本主题抽取方法[J];计算机应用;2005年04期
3 高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期
4 庄福振;罗平;何清;史忠植;;基于混合正则化的无标签领域的归纳迁移学习[J];科学通报;2009年11期
5 解冲锋,李 星;基于序列的文本自动分类算法[J];软件学报;2002年04期
中国硕士学位论文全文数据库 前1条
1 戴文渊;基于实例和特征的迁移学习算法研究[D];上海交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 陈基漓;牛秦洲;;WEB挖掘在农业信息网站个性化服务中的应用[J];安徽农业科学;2008年35期
3 陈键;胡学刚;;词分布均衡度评价特征词选取方法的文本分类[J];安徽科技学院学报;2009年02期
4 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
5 刘利;韦佳;马千里;;基于流形学习的图像检索研究进展[J];北京交通大学学报;2010年05期
6 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
7 李荣艳;金鑫;王春辉;郑宁;别荣芳;;一种新的中文文本分类算法[J];北京师范大学学报(自然科学版);2006年05期
8 李华雄;刘盾;周献中;;决策粗糙集模型研究综述[J];重庆邮电大学学报(自然科学版);2010年05期
9 刘光远;董立岩;苑森淼;李永丽;刘辉;;基于位差的属性选择算法[J];吉林大学学报(信息科学版);2007年01期
10 薛松;张钟澍;殷知磊;;贝叶斯算法在反垃圾邮件应用中的改进方案[J];成都信息工程学院学报;2009年04期
中国重要会议论文全文数据库 前10条
1 ;Joint Channel-frequency Selection for Motor Imagery-based BCIs Using a Semi-supervised SVM Algorithm[A];第二十九届中国控制会议论文集[C];2010年
2 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
3 武进;尹恺;王长明;张家才;;SVDM在蔬菜病害图像分类中的应用[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
4 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
5 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
6 徐云峰;;一种新的取证计算模型的研究与实现[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
7 ;Bhattacharyya Bound Based Channel Selection for Classification of Motor Imageries in EEG Signals[A];2009中国控制与决策会议论文集(2)[C];2009年
8 秦朗;;基于二叉树多层分类SVM的脱机手写体汉字识别[A];第十九届测控、计量、仪器仪表学术年会(MCMI'2009)论文集[C];2009年
9 方昕;钟尚平;;基于聚类与TSVM融合的图像通用隐写检测算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
10 王天芳;袁世宏;;证候/证候要素研究的分类假说与方法[A];中国中西医结合学会诊断专业委员会2009’年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
4 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
5 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
6 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
7 许相莉;基于智能计算的图像检索算法研究[D];吉林大学;2011年
8 冯奇;POMDP近似解法研究及在中医诊疗方案优化中的应用[D];北京交通大学;2011年
9 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 吴晓婷;基于流形学习的数据降维算法的研究[D];辽宁师范大学;2010年
3 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
4 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
5 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
6 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
7 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
8 张琪;三维网格模型层次分割及骨架提取[D];辽宁师范大学;2010年
9 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
10 张丽;无标注自学习反垃圾邮件服务的研究[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王皓;高阳;陈兴国;;强化学习中的迁移:方法和进展[J];电子学报;2008年S1期
2 王雪松;潘杰;程玉虎;;基于知识迁移的Ant-Q算法[J];电子学报;2011年10期
3 朱慧明,韩玉启;基于正态—逆Wishart先验分布的贝叶斯分类识别方法研究[J];工程数学学报;2004年01期
4 廖一星;潘雪增;;面向不平衡文本的特征选择方法[J];电子科技大学学报;2012年04期
5 张紫琼;叶强;李一军;;互联网商品评论情感分析研究综述[J];管理科学学报;2010年06期
6 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
7 吴琼;谭松波;许洪波;段洣毅;程学旗;;基于随机游走模型的跨领域倾向性分析研究[J];计算机研究与发展;2010年12期
8 刘志刚,李德仁,秦前清,史文中;支持向量机在多类分类问题中的推广[J];计算机工程与应用;2004年07期
9 戚涌,徐永红,刘凤玉;基于潜在语义标引的WEB文档自动分类[J];计算机工程与应用;2004年22期
10 刘伟;张化祥;;数据集动态重构的集成迁移学习[J];计算机工程与应用;2010年12期
中国重要会议论文全文数据库 前1条
1 李卫东;杨炳儒;李龙星;曲文龙;;基于中心词位置的VSM文本分类算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 覃姜维;迁移学习方法研究及其在跨领域数据分类中的应用[D];华南理工大学;2011年
2 蔡伟宏;基于非参数贝叶斯方法的资产配置[D];华中科技大学;2012年
3 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 孙舒杨;统计关系学习的若干问题研究[D];吉林大学;2006年
6 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 宫秀军;贝叶斯学习理论及其应用研究[D];中国科学院研究生院(计算技术研究所);2002年
8 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
9 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
10 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
中国硕士学位论文全文数据库 前10条
1 刘涛;多节点集成算法研究及在入侵检测上的应用[D];西安电子科技大学;2010年
2 王冰玉;集成学习算法的改进及其应用[D];西安电子科技大学;2009年
3 杜俊卫;基于聚类的文本迁移学习算法研究及应用[D];山西财经大学;2011年
4 孔润;马尔可夫逻辑网在超文本分类与链接预测中的应用[D];重庆大学;2011年
5 王晓园;贝叶斯方法在保险精算中的应用研究[D];重庆理工大学;2011年
6 张杰;基于协方差矩阵的稳健目标匹配算法研究[D];燕山大学;2012年
7 任周鹏;三峡库区蓄水前后鼠密度空间分布统计推断[D];东北师范大学;2011年
8 王梦松;RBF神经元网络的研究及其在复杂化学信息处理中的应用[D];浙江大学;2002年
9 李正林;中文文本数据分类研究[D];上海师范大学;2004年
10 张羽;基于支持向量机理论的垃圾邮件过滤模型[D];电子科技大学;2006年
【二级参考文献】
中国期刊全文数据库 前8条
1 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
2 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期
3 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
4 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
5 贺海军,王建芬,周青,曹元大;基于决策支持向量机的中文网页分类器[J];计算机工程;2003年02期
6 韩客松,王永成,沈洲,吴芳芳;三个层面的中文文本主题自动提取研究[J];中文信息学报;2001年04期
7 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
8 解冲锋,李 星;基于序列的文本自动分类算法[J];软件学报;2002年04期
中国博士学位论文全文数据库 前1条
1 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 董玉林;庞丽萍;夏重杭;;监督学习问题中的最优性条件与数值试验[J];高等学校计算数学学报;2005年S1期
2 陈志民;杨敬锋;陈其昌;张嘉琪;陈强;;融合监督学习与凝聚层次聚类的土地评价方法[J];计算机工程与应用;2007年18期
3 张钢;印鉴;程良伦;钟钦灵;;半监督多示例核[J];计算机科学;2011年09期
4 费越,汪力新,戴汝为;竞争监督学习法在集成型识别系统中的应用[J];自动化学报;1999年03期
5 袁优;张钢;;一种基于标签传播的半监督核学习算法[J];电脑与电信;2013年11期
6 汪力新;费越;戴汝为;;基于人机结合的竞争监督学习[J];模式识别与人工智能;1997年03期
7 蒋艳凰;周海芳;杨学军;;监督学习的发展动态[J];计算机科学;2003年07期
8 寿皓;;序列数据的监督学习方法综述[J];机电工程技术;2012年08期
9 黄德双;自监督学习子空间模式识别方法的统计特性分析[J];电子学报;1995年09期
10 周哲;;基于情感词典和监督学习的中文短评论情感分类[J];漳州师范学院学报(自然科学版);2013年04期
中国重要会议论文全文数据库 前1条
1 李军;孙金生;王执铨;;模型参考神经元控制[A];1996中国控制与决策学术年会论文集[C];1996年
中国博士学位论文全文数据库 前2条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 夏铮;基于图和网络的学习算法及其在系统生物学中的一些应用[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 郭佳骋;监督学习的话题模型[D];上海交通大学;2010年
2 张从乐;基于知识型数据的监督学习[D];上海交通大学;2008年
3 杨杰;监督主题模型的研究与应用[D];华中科技大学;2011年
4 李钢;代价敏感的支持向量机监督学习研究[D];南京师范大学;2007年
5 姚娜娜;基于机器学习的产品评论情感分类研究[D];首都师范大学;2013年
6 杨志武;多示例学习算法研究[D];郑州大学;2007年
7 甘海涛;有监督的模糊聚类算法研究[D];武汉工业学院;2010年
8 周峰;基于语义和监督学习的生物医学文献知识发现[D];大连理工大学;2010年
9 徐作英;基于半监督聚类算法的研究与应用[D];青岛大学;2010年
10 唐雪宁;便携式蛋白检测仪及其测试精度分析[D];长春理工大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026