收藏本站
《江苏科技大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

迁移与集成学习在文本分类中的应用研究

汤莹  
【摘要】:迁移学习是解决数据跨领域问题的一种有效方式,它从过期数据中学习知识来帮助认知新任务,由于其打破了传统机器学习“独立同分布”的假设,被成功应用于很多领域。集成学习通过组建多个有差异的分类器建立预测模型,由于其突出的稳定性和泛化性,成为机器学习研究的热点之一。本文以新闻文本分类为背景,对迁移学习和集成Bagging算法进行了研究,并得出一种改进的组合算法,为在少量目标训练集的情况下进行分类提供了一种适用的框架。首先阐述了集成学习的概念、发展现状,迁移学习的概念、对比分类、应用领域。之后,对新闻文本数据集的预处理过程进行详细的描述,讨论确认了参数和特征选择算法,使预测分类模型的训练数据输入更精准合适。最后,本文针对目标域的训练样本数量较少,无法建立优质分类模型的问题,探讨了一种在迁移框架下基于集成Bagging算法的跨领域分类模型。该模型引入源域的数据并对其进行筛选,学习混合数据集,从而建立基于集成Bagging算法的分类模型,最终投票得出预测结果。通过仿真实验的对比,采用基于贝叶斯基分类器的集成Bagging算法能使源域的迁移和目标域的分类准确率、泛化性能最好。同时,本文分析了源域中的噪音数据的数量对分类模型的影响,实验结果表明基于迁移集成Bagging算法的模型可以部分地规避负迁移。综上所述,本文针对不同的特征选择算法,研究了文本预处理过程中特征选择算法的差异。针对国内搜索引擎中很少能找到完整的英文预处理流程,本文改进了中文文本处理程序,整理出一套完整的图形化的英文文本预处理方式。将迁移学习与集成学习结合起来,综合探讨了跨领域的数据和不平衡数据的解决方式,给出了一种基于选择迁移的集成Bagging算法的分类模型,实验表明该模型整体性能较好,并且能规避一定的负迁移。
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 刘伟;张化祥;;数据集动态重构的集成迁移学习[J];计算机工程与应用;2010年12期
【共引文献】
中国期刊全文数据库 前10条
1 于重重;田蕊;谭励;涂序彦;;非平衡样本分类的集成迁移学习算法[J];电子学报;2012年07期
2 肖秦琨;钱春虎;高嵩;;一种基于Boosting的目标识别方法[J];电气自动化;2013年05期
3 向园;曹晓光;;基于深度特征和Adaboost的机场跑道异物识别算法[J];电子设计工程;2015年03期
4 赵喆;侯俊;;基于肤色模型和改进Adaboost算法的人脸检测[J];电子科技;2015年12期
5 刘建伟;付捷;罗雄麟;;距离和损失函数约束正则化的AdaBoost算法[J];计算机工程与应用;2013年15期
6 熊馨;徐礼胜;王春武;康雁;;不平衡数据集的CT结肠镜息肉检测方法[J];哈尔滨工业大学学报;2013年11期
7 朱韶平;;基于自适应特征选择的夜间运动车辆检测算法[J];吉首大学学报(自然科学版);2013年06期
8 杨春;殷绪成;郝红卫;闫琰;王志彬;;基于差异性的分类器集成:有效性分析及优化集成[J];自动化学报;2014年04期
9 朱亚奇;邓维斌;;一种基于不平衡数据的聚类抽样方法[J];南京大学学报(自然科学);2015年02期
10 马毅;张杰;任广波;崔廷伟;;基于决策级数据融合的CHRIS高光谱图像分类方法研究[J];海洋科学;2015年02期
中国重要会议论文全文数据库 前1条
1 Xiukuan Zhao;Baiqi Ning;Libo Liu;Gangbing Song;;A prediction model of short-term ionospheric fo F2 based on Ada Boost[A];中国科学院地质与地球物理研究所2014年度(第14届)学术年会论文汇编——科技支撑系统[C];2015年
中国博士学位论文全文数据库 前10条
1 颜学颖;SAR图像相干斑抑制和分割方法研究[D];西安电子科技大学;2013年
2 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
3 欧阳琰;面部表情识别方法的研究[D];华中科技大学;2013年
4 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
5 陈斌;异常检测方法及其关键技术研究[D];南京航空航天大学;2013年
6 徐丽;面向图像标记的条件随机场模型研究[D];长安大学;2013年
7 孙伟;基于迁移学习的文本分类算法研究[D];中国矿业大学(北京);2013年
8 耿利川;无人机遥感图像快速拼接方法研究[D];厦门大学;2014年
9 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
10 李森;火灾初期建筑内图像清晰化及人员检测技术研究[D];中国科学技术大学;2014年
中国硕士学位论文全文数据库 前3条
1 杜俊卫;基于聚类的文本迁移学习算法研究及应用[D];山西财经大学;2011年
2 刘伟;机器学习中知识迁移方法研究[D];山东师范大学;2010年
3 林好兵;基于迁移学习的中文问句分类方法研究[D];昆明理工大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
2 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
3 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
4 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
5 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
6 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期
7 吴科主;江雨燕;周传华;;一种多层次选择性集成学习算法[J];计算机应用与软件;2011年01期
8 张春霞;张讲社;;选择性集成学习算法综述[J];计算机学报;2011年08期
9 付忠良;;通用集成学习算法的构造[J];计算机研究与发展;2013年04期
10 张妤;王文剑;康向平;;一种回归SVM选择性集成方法[J];计算机科学;2008年04期
中国重要会议论文全文数据库 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
3 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
4 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
5 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
6 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年
7 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
8 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
9 林智勇;基于核方法的不平衡数据学习[D];华南理工大学;2009年
10 李磊军;基于间隔和置信度的选择性集成学习算法研究[D];哈尔滨工业大学;2014年
中国硕士学位论文全文数据库 前10条
1 张妤;支持向量机集成学习方法研究[D];山西大学;2008年
2 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
3 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
4 曹振田;基于Q统计量的选择性集成学习研究[D];安徽大学;2010年
5 王丽丽;集成学习算法研究[D];广西大学;2006年
6 马冉冉;集成学习算法研究[D];山东科技大学;2010年
7 张新东;集成学习及其应用研究[D];石家庄经济学院;2010年
8 吴科主;基于多任务的多层次选择性集成学习的研究[D];安徽工业大学;2010年
9 李平;集成学习中差异性控制方法研究[D];大连海事大学;2012年
10 田智辉;基于集成学习的故障诊断方法研究[D];西安石油大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026