收藏本站
收藏 | 论文排版

面向不完备数据的分类方法若干问题研究

李长春  
【摘要】:分类问题,如垃圾邮件检测、疾病自动诊断、信用卡诈骗识别等,是机器学习领域的核心基础问题。现有分类方法通常设计一个参数化模型(如深度神经网络)建模数据中特征到标签的映射关系,并使用相应的标注数据训练模型以学习该映射关系。为保证模型的分类性能,这类监督学习方法要求数据的信息是充分、准确、明确的。然而,随着互联网的发展和社交媒体应用的普及,数据规模虽呈现指数式增长,但很大一部分数据是不完备的,其不完备性主要表现为特征层面的稀疏、缺失、损坏等,和监督信息层面的不完全、不准确、不明确等。不完备数据的复杂性和多样性为其分类带来了诸多严峻挑战,如何基于这些不完备数据学习分类模型是当前机器学习领域研究的热点之一。本文围绕数据中稀疏特征、不完全监督信息及不明确监督信息三种典型的不完备信息,研究不完备数据分类中三个热点问题:短文本分类、半监督学习和偏标记学习,出了多种高准确率的不完备数据分类方法。具体工作内容如下:1.短文本数据是一类典型的包含稀疏特征的不完备数据。主流的基于词袋模型的短文本分类方法,因词项稀疏和忽视单词语义知识,存在文本相似度失调问题。为解决该问题,本文基于词移距离(Word Mover’s Distance,WMD)和词嵌入技术,出了两种改进的短文本分类和建模方法:(1)出了基于正则化WMD(Regularized WMD)和假设间隔的短文本重心分类方法RWMD-CC,并分析了其泛化误差上界和时间复杂度。RWMD-CC使用度量文本语义距离的RWMD,以解决短文本中相似度失调问题;并基于RWMD和假设间隔为每个类别学习一个语义重心,将测试时间复杂度降到了线性于类别数量。实验结果表明,RWMD-CC有效升了短文本分类效果,且测试耗时显著低于现有基于WMD的方法。(2)出了语义指导的Wasserstein学习模型SAWL,并分析了其重构误差的泛化上界。为在主题建模过程中引入单词语义关系,SAWL使用基于词嵌入向量的正则化Wasserstein距离损失结合NMF(Non-negative Matrix Factorization)思想建模文本;同时融入了词项PPMI(Positive Pointwise Mutual Information)矩阵分解学习词嵌入向量,以炼语料库特有语义知识。SAWL同时适用于短文本和传统的长文本数据。实验结果表明,SAWL有效高了主题建模的主题质量和分类效果,及学习的词嵌入向量的质量。2.半监督学习主要研究如何从包含不完全监督信息的不完备数据中学习分类模型。本文关注两种重要的半监督学习问题:半监督文本分类,及正样本和无标注样本(Positive and Unlabeled,PU)学习,并针对其伪标注样本置信度较低问题,出了两种改进方法:(1)出了基于平衡深度表示分布的半监督文本分类方法S~2TC-BDD。深度自训练方法是一种主流的半监督文本分类方法,然而因半监督文本分类场景下各类别表示分布方差差异过大引发的间隔偏差问题,这类方法中无标注文本预测伪标签的精确度通常较低。为解决该问题,S~2TC-BDD设计了一组高斯线性变换,并将其融入角度间隔损失中,用于约束各类别深度表示分布是平衡的。实验结果表明,S~2TC-BDD有效升了半监督场景下文本分类效果,且当标注文本非常稀少时其性能升更加显著。(2)出了基于启发式mixup技术的PU学习方法P~3Mix。在早期实验中发现,PU学习存在分类决策面偏离现象——分类决策面通常偏离真实决策面且偏向于正类一侧,其根源在于两个决策面间的边缘伪负样本的不正确监督信息对模型训练的负面影响。P~3Mix为边缘伪负样本设计了一种启发式mixup伙伴样本选择策略,以改进其中不正确的监督信息。出的启发式mixup技术是易于实现的,并且可以同时实现数据增强和监督信息校正。实验结果表明,P~3Mix的分类效果一致地优于对比的PU学习方法。3.偏标记学习的目标是从一类包含不明确监督信息的不完备数据——偏标记数据中学习分类模型。消歧方法是现今主流的偏标记学习方法之一,但它们近似的标签置信度的精确度较低。为解决该问题,本文出了两种改进的消歧偏标记学习方法:(1)出了基于全局和局部一致性的消歧偏标记学习方法PANGOLIN。为更加有效地约束标签置信度以高其近似精确度,PANGOLIN结合标签原型和流形约束设计了一种特征空间全局一致性约束,并进一步融合了基于偏标记样本不相似关系的标签空间局部一致性。实验结果表明,PANGOLIN的分类效果显著优于对比的偏标记学习方法。(2)出了基于候选样本鉴别的偏标记学习方法A~2L~2CID。受生成对抗网络启发,A~2L~2CID设计了一种样本为轴的消歧策略:将每个偏标记样本划分为一组候选样本,利用判别器识别伪候选样本,并在分类器的训练中不使用这些识别出的伪候选样本。基于Triple-GAN框架和出的互补学习策略,A~2L~2CID协同地训练判别器和分类器,使其在训练过程中可以相互促进。理论分析证明A~2L~2CID存在全局最优均衡点。实验结果表明,A~2L~2CID有效升了分类效果,且在类别较多的数据集上其效果升更加显著。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 林小俊;张猛;暴筱;李军;吴玺宏;;基于概念网络的短文本分类方法[J];计算机工程;2010年21期
2 蒲国林;卫洪春;谢茂森;;基于迁移学习的实时多类别文本分类方法研究[J];四川文理学院学报;2015年02期
3 陈立潮;秦杰;陆望东;潘理虎;张睿;;自注意力机制的短文本分类方法[J];计算机工程与设计;2022年03期
4 周灵;张英俊;潘理虎;;一种基于情感特征的短文本分类方法[J];计算机与现代化;2020年07期
5 陈祎荻;秦玉平;;基于机器学习的文本分类方法综述[J];渤海大学学报(自然科学版);2010年02期
6 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期
7 侯玉兵;;基于注意机制的短文本分类方法[J];电脑知识与技术;2020年28期
8 靳一凡;傅颖勋;马礼;;基于频繁项特征扩展的短文本分类方法[J];计算机科学;2019年S1期
9 王青松;聂振业;周芳晔;;基于深度学习和主题模型的短文本分类方法[J];辽宁大学学报(自然科学版);2022年02期
10 李书彬;周安民;;一种基于多维度图神经网络的短文本分类方法[J];现代计算机;2022年01期
11 张合欢;陈致君;杨顶;;基于混合式迁移学习的文本分类方法[J];长江信息通信;2022年05期
12 屈亮亮;侯霞;;一种基于图注意力网络的短文本分类方法[J];北京信息科技大学学报(自然科学版);2021年05期
13 袁乖宁;冯永;;利用类-项权重和类-项密度的文本分类方法[J];计算机工程与设计;2017年08期
14 赫芳;王洋;;网络的简监督文本分类方法[J];计算机与网络;2012年17期
15 于游;付钰;吴晓平;;一种基于词和事件主题的卷积网络的新闻文本分类方法[J];计算机应用与软件;2021年05期
16 曾仔健;赵鸣;;基于神经网络的文本分类方法[J];电子世界;2021年10期
中国重要会议论文全文数据库 前20条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
3 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 陈建美;林鸿飞;杨志豪;;基于贝叶斯模型的词汇情感消歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
6 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 姚天昉;彭思崴;;汉语主客观文本分类方法的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 周晓;李超;胡明涵;王会珍;;基于人物互斥属性的中文人名消歧[A];第六届全国信息检索学术会议论文集[C];2010年
9 周云;王挺;易绵竹;王之元;;全词消歧的序列标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 方向红;宋春阳;;介连兼类词“以”的句法语义区别特征及消歧策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
11 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
12 李丽;孙甲申;王小捷;李江;宋占江;;基于属性信息的中文人名消歧[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
13 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
14 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
15 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
16 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
17 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[A];第六届全国信息检索学术会议论文集[C];2010年
18 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
19 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
20 唐中华;张志飞;徐中明;贺岩松;;基于广义奇异值分解的广义Tikhonov正则化载荷识别[A];第十四届全国振动理论及应用学术会议(NVTA2021)摘要集[C];2021年
中国博士学位论文全文数据库 前20条
1 李长春;面向不完备数据的分类方法若干问题研究[D];吉林大学;2022年
2 李明;基于极限学习机的文本分类方法研究[D];中国科学院大学(中国科学院重庆绿色智能技术研究院);2018年
3 冯骁骋;基于表示学习的信息抽取技术研究[D];哈尔滨工业大学;2018年
4 孙雅铭;基于文本表示学习的实体消歧研究[D];哈尔滨工业大学;2017年
5 周杰;基于网络语义资源的命名实体识别与消歧技术研究[D];解放军信息工程大学;2016年
6 吴玉佳;融合全局和局部特征的文本分类方法研究[D];武汉大学;2020年
7 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
8 周云;基于统计学习的词义消歧关键技术研究[D];国防科学技术大学;2014年
9 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
10 乔林波;大规模正则化机器学习算法研究[D];国防科技大学;2017年
11 丁转莲;基于图正则化的复杂网络社团检测研究[D];安徽大学;2018年
12 王梅;正则化路径上的支持向量机模型组合[D];天津大学;2013年
13 吴磊;(?)_p正则化问题的算法研究[D];湖南大学;2013年
14 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
15 徐晓琳;面向大规模数据分析与分类的正则化回归算法[D];安徽大学;2017年
16 苏扬;基于稀疏正则化的电磁勘探数据反演研究[D];吉林大学;2022年
17 郝亚炬;基于稀疏正则化的黏弹性地震衰减补偿及反演方法研究[D];中国石油大学(北京);2019年
18 胡宝芳;融合多语义元路径的异质网络表示学习方法研究[D];山东师范大学;2019年
19 任维雅;图划分准则下基于图的学习方法研究[D];国防科学技术大学;2015年
20 王文娟;地球物理反演中病态矩阵方程正则化解算方法研究[D];成都理工大学;2010年
中国硕士学位论文全文数据库 前20条
1 罗竞宇;投诉短文本分类方法和情感分析研究[D];海南大学;2019年
2 岳永政;基于特征表示的中文极短文本分类方法研究[D];合肥工业大学;2020年
3 朱芬红;基于卷积特征编码与注意力机制的短文本分类方法研究[D];苏州大学;2019年
4 薛彬;面向社会治理的文本分类方法研究与应用[D];中国计量大学;2018年
5 田明杰;基于双语主题词嵌入模型的中朝跨语言文本分类方法的研究[D];延边大学;2019年
6 蔡高八斗;基于FCM聚类的文本分类方法研究[D];广州大学;2019年
7 蒋道宁;基于动词特征的文本分类方法研究[D];华南理工大学;2019年
8 冀文光;基于Attention-Based Bi-GRU模型的文本分类方法研究[D];电子科技大学;2019年
9 邵云飞;融合主题模型与词向量的短文本分类方法研究[D];西安电子科技大学;2019年
10 杨坤;基于图卷积网络的文本分类方法研究[D];华中科技大学;2019年
11 宋艳青;基于词向量的文本分类方法研究[D];燕山大学;2019年
12 郭嘉宝;基于双向LSTM的文本分类方法研究[D];湖北工业大学;2019年
13 靳一凡;中文短文本分类方法的设计与实现[D];北方工业大学;2019年
14 古倩;基于特征向量构建的文本分类方法研究[D];西安理工大学;2019年
15 张玉腾;非独立同分布词语相关度计算方法研究[D];齐鲁工业大学;2019年
16 王国薇;基于深度学习的文本分类方法研究[D];新疆大学;2019年
17 白治龙;基于Hadoop的文本分类方法研究[D];河南科技大学;2019年
18 徐晓璐;基于深度学习的多标签短文本分类方法研究[D];桂林电子科技大学;2019年
19 屈渤浩;基于改进FastText的中文短文本分类方法研究[D];辽宁大学;2018年
20 彭杨;基于多词向量集成和神经网络的文本分类方法研究[D];东北师范大学;2018年
中国重要报纸全文数据库 前16条
1 记者 曾妍 通讯员 王力夫;联合国消歧委代表访问湖南[N];人民法院报;2011年
2 本报记者 王春霞;性别平等有助实现全面建设和谐社会[N];中国妇女报;2007年
3 南方日报记者 马立敏 钟哲 实习生 曹颖 陈丽华;“重视学习方法,才能事半功倍”[N];南方日报;2019年
4 记者 赵文肖;学习方法 广交朋友 吃透政策 推动创新[N];太行日报;2018年
5 姜治雄;陕煤地质一三九公司党委 “五要素”创新学习方法[N];中煤地质报;2018年
6 本报记者 刘晶;创新VR教育 改变传统学习方法[N];中国电子报;2021年
7 董雨鑫 河北省保定市曲阳县第一高级中学;高中学生对法学认识及学习方法研究[N];山西科技报;2022年
8 曾海尧 袁剑锋 李奖殿;创新学习方法 促进部队建设[N];西部法制报;2009年
9 张现民 孙国坤;创新学习方法 保障学习质量[N];石家庄日报;2019年
10 学办文;五市学习方法多样 活动开展深入[N];黑河日报;2010年
11 本报记者 陈洋;省铁路集团 “四个一”创新先进性教育学习方法[N];黑龙江经济报;2005年
12 本报记者 罗平;北京局:创新学习方法[N];人民铁道;2007年
13 本报记者;突出自身特色 创新学习方法 务求学习实效[N];重庆日报;2005年
14 卫转业、特约记者 申进科;创新学习方法 提高学习质量[N];解放军报;2004年
15 记者 李勇;日喀则报社第三批先进性教育活动中革新学习方法 激发学习热情[N];日喀则报;2006年
16 通讯员刘希晶;我把学习方法教给孩子们[N];阿勒泰日报(汉);2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978