收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于正例和无标记样例学习研究

张邦佐  
【摘要】: 随着World Wide Web的迅猛发展,Web信息呈现出爆炸式指数级涌现,催生了搜索引擎这一激动人心的研究领域。各种搜索引擎已经成为人们使用因特网的最重要的信息服务工具,但是人们要想找到许多重要信息仍然如同大海捞针一般,研究者们公认面向主题的搜索是搜索引擎未来最重要的发展方向。主题爬行(Focused Crawling)系统采用基于样例网页驱动的主题信息收集方法,具有重要的学术研究价值和广阔的应用前景。 本文即是针对主题爬行中的关键技术——文本分类问题,将主题相关性转变为基于正例和无标记样例的学习(Learning from Positive and Unlabeled examples,PU学习)问题。PU学习范型的最大问题是没有可以利用的反例,因此传统的监督学习和半监督学习方法不能有效的使用。本文针对这一学习范型进行了跟踪,做了比较全面的综述和深入的研究,将基于机器学习的文本挖掘技术引入PU学习,并加以应用,提出了新颖的解决办法,取得丰硕而有成效的研究成果。本文创新工作主要包括如下两个方面: 第一方面工作是基于两阶段策略的研究工作,针对两阶段策略中的第一阶段——提取可靠反例,提出了三种有效的可靠反例提取算法:(1)基于经典的k-Means聚类算法的可靠反例提取算法,首先对训练集合(正例集合和无标记样例集合)采用k-Means聚类算法进行聚类,将正例比例低于某一阈值的簇标记为可靠反例;(2)基于约束k-Means聚类的可靠反例提取算法,约束k-Means聚类是一种全新的半监督聚类算法,在聚类过程中用正例集合来初始化正例中心,将正例标记做为Must-link约束进行约束聚类,本方法最后不仅标记了可靠反例,也同时扩充了正例集合;(3)基于kNN的Ranking学习算法的可靠反例提取算法,将无标记样例采用kNN算法计算其与k个正例近邻的Rank值,将Rank值低于一定阈值的样例标记为可靠反例。 第二方面工作是基于协同训练范型这一半监督学习中最重要的方法提出了两种PU学习算法:(1)基于Co-EM SVM的PU学习,Co-EM SVM是对标准协同训练算法在EM算法框架之下使用SVM做为内嵌分类器的改进。首先采用基于1-DNF方法的视图划分方法,将文本特征集合划分为正例特征集和反例特征集组成两个视图,然后在单视图上提取可靠反例,最后采用Co-EM SVM进行迭代学习。(2)基于Tri-training算法的PU学习,Tri-training是采用单视图多分类器方法对协同训练算法的推广,本文采用了三个已有的可靠反例提取算法分别初始化三个SVM分类器,然后将其两个分类器的一致分类结果作为第三个分类器的训练样例进行迭代学习,最终分类结果通过三个分类器的集成得到。 本文提出的方法均在经典的文本分类数据集上与相关工作进行了对比实验,并采用通常的文本分类评估指标,验证了本文工作明显优于相关工作,取得了较好的实验效果,并就本文工作进行了总结,公开发表了相关的学术论文,取得了较好的评价。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王会青,冯秀芳,余雪丽;基于多层信息相结合的构件存储与检索[J];太原理工大学学报;2003年03期
2 晓月;;《非常好印》[J];电脑采购周刊;2000年32期
3 ;关于征集《电讯技术》封面设计的通知[J];电讯技术;2009年10期
4 ;关于征集《电讯技术》封面设计的通知[J];电讯技术;2009年11期
5 范岳;;力新国际非常好印[J];电子测试;2000年09期
6 周静;;基于局部泛化误差模型的RBFNN的启发式训练方法[J];保定学院学报;2008年04期
7 李明方;张化祥;;针对不平衡数据集的Bagging改进算法[J];计算机工程与应用;2010年30期
8 董元方;李雄飞;李军;;一种不平衡数据渐进学习算法[J];计算机工程;2010年24期
9 ;消灭负担——微软零管理方案努力的目标[J];每周电脑报;1997年27期
10 龙军;殷建平;祝恩;赵文涛;;主动学习中一种基于委员会的误分类采样算法[J];计算机工程与科学;2008年04期
11 苏宏升;赵峰;;一种基于粗集的概念学习新方法[J];重庆邮电大学学报(自然科学版);2007年04期
12 ;新书点评[J];电脑编程技巧与维护;2008年02期
13 程险峰;李军;李雄飞;;一种基于欠采样的不平衡数据分类算法[J];计算机工程;2011年13期
14 韩习武;赵铁军;;非精确概念的机器学习与应用[J];哈尔滨工业大学学报;2006年10期
15 彭小波;郑先超;胡琳;;基于样例的参数化鞋楦建模研究[J];机电工程技术;2007年05期
16 蔡晨;李凡长;;动态模糊决策树学习算法研究[J];计算机技术与发展;2007年07期
17 ;算法擂台[J];程序员;2008年04期
18 付俊峰;;QQ表情真人秀(1)——开心笑笑笑[J];少年电脑世界;2009年09期
19 张洪伟;蒋秀峰;;测试样例开发研究[J];微计算机信息;2009年30期
20 卢涤非;任文华;李国军;斯进;;基于样例的交互式三维动画的生成[J];计算机研究与发展;2010年01期
中国重要会议论文全文数据库 前10条
1 王沛;张国礼;;刻板印象的表征单元及其加工机制[A];第十届全国心理学学术大会论文摘要集[C];2005年
2 安蓉;;分类中影响类别表征选择因素的实验研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
3 窦晓菲;沈旭昆;齐越;;基于样例与参数化的城市地图交互设计算法[A];自主创新与持续增长第十一届中国科协年会论文集(4)[C];2009年
4 袁进;周向东;王梅;汪卫;施伯乐;;改进的基于支持向量机的Web图像检索相关反馈方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 梁俊杰;吴潇;;基于颜色的加权多重分块图像检索方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 沈克爽;刘建伟;陈锋;乐嘉锦;;基于分段直方图的时间序列相似度查询[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 吴佳金;杨志豪;林原;林鸿飞;;基于改进Pairwise损失函数的排序学习方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
10 丁慧萃;张寅升;吕旭东;段会龙;;AHA诊断术语在心电信息系统中的应用[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会壁报展示论文[C];2010年
中国博士学位论文全文数据库 前10条
1 杨文;面孔部件相似性与整体相似性的关系研究[D];天津师范大学;2013年
2 吴伟宁;主动学习算法中采样策略研究[D];哈尔滨工业大学;2013年
3 李军;不平衡数据学习的研究[D];吉林大学;2011年
4 陈宁;教师的情绪预测准确性及其影响因素[D];上海师范大学;2013年
5 王洋;多模态图像检索技术[D];中国科学技术大学;2013年
6 郭兆明;数学高级认知图式获得方式的比较研究[D];西南大学;2006年
7 陈莉;刻板印象的心理表征:组织结构及其特性[D];上海师范大学;2011年
8 何云峰;视频内容组织与索引技术研究[D];华中科技大学;2011年
9 董元方;机器学习中的模型选择问题研究[D];吉林大学;2011年
10 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 李塔;交叉样例选择研究[D];河北大学;2013年
2 王敏;音频样例优选与重复检测方法[D];哈尔滨工业大学;2011年
3 官红严;高中三角函数样例设计的研究[D];苏州大学;2014年
4 王珍钰;基于不确定性的主动学习算法研究[D];河北大学;2011年
5 刘峰涛;基于样例池类标改变率的主动学习算法终止准则研究[D];河北大学;2011年
6 苗青;基于ELM和PNN的样例选择研究[D];河北大学;2013年
7 郭亚丽;翻译等值的原型理论诠释[D];西南大学;2007年
8 易雪梅;翻译本质的原型理论诠释[D];西南大学;2006年
9 黎妮;翻译原则的原型观[D];西南大学;2007年
10 王硕;增量决策树中样例选择的影响与评价[D];河北大学;2010年
中国重要报纸全文数据库 前10条
1 晓军;如何进行有效的项目控制(一)[N];中国计算机报;2002年
2 溪泓;企业网上商业介入的四个等级[N];中国经营报;2000年
3 郭风;70000家国际进口商将在华显身[N];国际商报;2002年
4 北京SPIN 雅行;CMM体系设计三步曲[N];计算机世界;2002年
5 红兵;实施前要精心准备[N];中国计算机报;2000年
6 商迅;如何利用直接营销打开国际市场[N];国际商报;2002年
7 ;“Z+Z智能教育平台”通过审定[N];科技日报;2000年
8 成都 侯鑫;如何学习别人的可编程器件程序[N];电子报;2008年
9 本报记者 于翔;用友、IBM合作本土云研发[N];网络世界;2010年
10 罗淑婷;全市投入逾4亿元加固改造校舍[N];东莞日报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978