收藏本站
《浙江大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于半监督流形学习的Web信息检索技术研究

王灿  
【摘要】: 在Web 2.0时代,万维网逐渐由一个海量信息存储库发展成为全球用户参与、分享和交互的平台。这一方面促使万维网上各种复杂类型数据(图像、音频、视频等)急剧增加;另一方面,用户在Web信息检索方面的个性化需求也不断增长。有效支持复杂类型数据检索和检索结果的个性化成为当前Web信息检索技术所面临的两大挑战。 本文对基于半监督流形学习的Web信息检索技术进行了探索和研究。半监督流形学习技术基于流形数据假设,利用由已标注数据和未标注数据所共同体现的内在流形结构,来构建更有效的学习模型。在各种Web信息检索应用中,各类相关数据通常分布在高维外部空间中的子流形结构上,这为半监督流形学习技术提供了广阔的用武之地。 在Web 2.0时代,各类Web 2.0应用将产生大量的用户自主创造内容(UGC)。这些UGC数据包含了很多用户个性化信息,有效利用这些数据是实现Web信息检索个性化的关键。但是,相比于万维网上的海量信息,能有效辅助个性化检索的用户反馈信息显得非常稀缺。半监督流形学习技术利用数据的流形分布特征,让我们在Web信息检索中更加充分的利用用户反馈,实现各类数据的有效检索,更好的实现检索内容个性化。 在本文中,我们在对半监督流形学习技术在以下Web信息检索相关领域中的应用进行了研究和探索: 1.基于内容的图像检索(CBIR):引入用户反馈是解决CBIR中“语义鸿沟”问题的有效手段,但这又给图像检索带来“维度灾难”问题。为了解决这个问题,本文使用核技术对最大边缘投影算法(MMP)进行非线性扩展,提出了基于核的最大边缘投影算法(KMMP)。KMMP将图像子流形映射到一个低维子空间,更好的实现高度非线性流形数据的降维,有效提高图像检索的精确度。 2.Web新闻人脸检索:大部分新闻都是和人相关的一些故事,因此根据特定的人物对相关的新闻文本和图片进行检索是一种很自然的需求。在新闻人脸检索中,人工标注的代价往往较高;因此,现有的方法都是在文本检索的基础上,使用无监督学习技术对人脸数据聚类来检索新闻人脸。如果属于同一个人的负样例图片比较多,无监督的方法会返回大量的错误结果。本文提出了一种基于半监督流形排序的新闻人脸检索方法,利用人脸数据分布的流形几何特征,在检索过程中引入用户相关反馈,实现更加精确的新闻人脸检索。同时,用户相关反馈的引入,也有效解决了无监督方法在属于同一个人的负样例图片较多的情况下检索精度差的问题。 3.网页文档摘要:在社交网络中,用户在网页上标注的标签既是对相关内容的高度概括,也是用户对感兴趣内容的标注。这使网页标签成为网页摘要的良好素材。本文通过使用网页标签,提出一种以抽取用户感兴趣内容为主的社会化摘要方法。首先,我们在三核协同标签模型(Tripartite Collaborative Tagging Model)的基础上,通过分析用户标签行为,构建一个体现数据流形分布特征的加权图。然后,我们使用线性近邻传递方法实现在加权图上的用户兴趣传播,使得产生的网页摘要有效聚焦于用户感兴趣的内容。 4.新闻网页标题识别:传统新闻网页标题识别方法都是基于模板的,必须为不同的模板开发不同的包装程序(Wrapper),而且容易受模板更新的影响。本文提出一种基于视觉效果的新闻网页标题识别方法,有效消除标题识别的模板依赖性。在使用VIPS算法对新闻网页分块的基础上,我们抽取新闻标题块的视觉特征和部分内容特征,构造了一个标题块数据的流形空间。我们通过在这个流形特征空间中应用半监督流形排序算法,实现了对新闻标题块较为精确的识别。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.3

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 刘峥;图像的语义标注及其改善问题研究[D];山东大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 Jennifer A. EDALGO;Holly M. McCHESNEY;Jason P. LOVE;James T. ANDERSON;;Microhabitat use by white-footed mice Peromyscus leucopus in forested and old-field habitats occupied by Morrow's honeysuckle Lonicera morrowii[J];Current Zoology;2009年02期
2 刘利;韦佳;马千里;;基于流形学习的图像检索研究进展[J];北京交通大学学报;2010年05期
3 周方俊;;一种加权IDIOSCAL模型的非度量分析方法[J];纯粹数学与应用数学;1991年01期
4 张一飞;修非;鲍玉斌;于戈;;基于小波纹理特征的医学图像检索[J];东北大学学报(自然科学版);2009年03期
5 马成学;刘曼红;黄璞祎;张丽娜;于洪贤;左彦东;;镜泊湖枯水期和丰水期浮游植物群落结构[J];东北林业大学学报;2010年02期
6 王丹丹;刘显德;;一种基于自组织过程神经网络的动态样本半监督学习算法[J];智能计算机与应用;2011年05期
7 贾磊;徐燕凌;;一种基于形状特征的图像检索方法[J];电脑知识与技术;2008年07期
8 王建国;于洪贤;马成学;曲翠;;兴凯湖浮游植物数量特征与群落结构分析[J];淡水渔业;2011年04期
9 崔巍;王成儒;;基于小波分析的图像检索技术[J];电子测量技术;2008年03期
10 王广斌;黄良沛;康煜华;;面向转子故障诊断的核局部边界Fisher判别方法[J];电子测量与仪器学报;2010年01期
中国重要会议论文全文数据库 前5条
1 ;Evidence for wildfire in the Meishan section and implications for Permian—Triassic events[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(上)[C];2012年
2 董冀媛;穆志纯;欧阳定恒;;基于最大线性片划分的局部切空间排列算法及在多姿态人耳识别中的应用[A];第二十九届中国控制会议论文集[C];2010年
3 赵守盈;骆文淑;江新会;;层面理论中的测量结构研究[A];第二届贵州省自然科学优秀学术论文评选获奖论文集(2007年)[C];2007年
4 王自强;孙霞;钱旭;;基于信息瓶颈和拉普拉斯SVM的Web文档分类算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
5 马立玲;姬利军;王军政;;正交判别的线性局部切空间排列结合SVM的门牌识别[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 陈洪举;黄、东海浮游动物群落结构和多样性研究[D];中国海洋大学;2010年
3 夏丁胤;互联网图像高效标注和解译的关键技术研究[D];浙江大学;2010年
4 邵纪东;非线性过程监测中的数据降维及相关问题研究[D];浙江大学;2010年
5 符茂胜;局部保持的流形学习理论及其在视觉信息分析中的应用[D];安徽大学;2010年
6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
7 雷迎科;流形学习算法及其应用研究[D];中国科学技术大学;2011年
8 刘永斌;基于非线性信号分析的滚动轴承状态监测诊断研究[D];中国科学技术大学;2011年
9 蒋胜利;高维数据的特征选择与特征提取研究[D];西安电子科技大学;2011年
10 尹学松;半监督聚类分析策略设计及其拓展性研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 吴晓婷;基于流形学习的数据降维算法的研究[D];辽宁师范大学;2010年
2 曲昆鹏;基于支持向量机的杂草识别研究[D];哈尔滨工程大学;2010年
3 张琪;三维网格模型层次分割及骨架提取[D];辽宁师范大学;2010年
4 徐培培;胶州湾及其附近海域浮游动物群落生态学研究[D];中国海洋大学;2010年
5 姜强;春、秋季北黄海大中型浮游动物群落生态学研究[D];中国海洋大学;2010年
6 赵军;基于流形对齐的论坛个性化推荐与检索[D];浙江大学;2011年
7 郭全;基于MDS-FCM的可视化操作优化方法研究[D];武汉理工大学;2011年
8 李凯;健壮的流形学习算法及其应用研究[D];福建师范大学;2010年
9 边志锋;基于内容的图像检索技术研究[D];西安电子科技大学;2008年
10 郭敬;基于分割的医学图像检索技术研究[D];山东师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 刘硕研;须德;冯松鹤;刘镝;裘正定;;一种基于上下文语义信息的图像块视觉单词生成算法[J];电子学报;2010年05期
2 王斌;俞能海;;一种针对大规模网络图像的自动标注改善算法[J];电子与信息学报;2009年02期
3 刘运龙;王建新;;带权最大割问题的一种基于划分技术的固定参数可解算法[J];高技术通讯;2010年03期
4 路晶;马少平;;基于概念索引的图像自动标注[J];计算机研究与发展;2007年03期
5 路晶;马少平;;使用基于多例学习的启发式SVM算法的图像自动标注[J];计算机研究与发展;2009年05期
6 路晶;马少平;;基于多例学习的Web图像聚类[J];计算机研究与发展;2009年09期
7 卢汉清;刘静;;基于图学习的自动图像标注[J];计算机学报;2008年09期
8 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
9 王梅;周向东;张军旗;许红涛;施伯乐;;基于扩展生成语言模型的图像自动标注方法[J];软件学报;2008年09期
10 吴飞;韩亚洪;庄越挺;邵健;;图像-文本相关性挖掘的Web图像聚类方法[J];软件学报;2010年07期
中国博士学位论文全文数据库 前9条
1 王斌;图像检索中自动标注与快速相似搜索技术研究[D];中国科学技术大学;2007年
2 宋峻峰;面向语义Web的领域本体表示、推理、集成及其应用研究[D];国防科学技术大学;2006年
3 李杰;基于内容的图像检索方法研究[D];中国科学技术大学;2008年
4 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
5 冯松鹤;面向感知的图像检索及自动标注算法研究[D];北京交通大学;2009年
6 许红涛;Web图像语义分析与自动标注研究[D];复旦大学;2009年
7 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
8 芮晓光;真实世界环境下的自动图像标注方法研究[D];中国科学技术大学;2010年
9 吴磊;视觉语言分析:从底层视觉特征表达到语义距离学习[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前2条
1 曾伟铭;针对Flickr的关于Web2.0的摄影传播研究[D];上海师范大学;2008年
2 陈烨;面向资源共享网站的图像标注和标签推荐技术研究[D];浙江大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 邱均平;牟楠;楼雯;赵蓉英;;国内外语义标注研究进展分析[J];情报理论与实践;2014年05期
中国博士学位论文全文数据库 前1条
1 李博;基于LDA和LSA的医学文本和影像分析模型及应用研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前2条
1 李静;基于多特征的图像标注研究[D];武汉理工大学;2013年
2 吕明磊;基于区域语义的图像检索[D];福建师范大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 魏莱;王守觉;徐菲菲;;一种对奇异值不敏感的ISOMAP[J];计算机应用;2007年08期
2 王靖;;基于鲁棒的全局流形学习方法[J];计算机工程;2008年09期
3 李子荣;杜明辉;;LDA/GE在人脸识别中的应用[J];计算机工程与应用;2008年25期
4 孟德宇;古楠楠;徐宗本;梁怡;;针对环状流形数据的非线性降维[J];软件学报;2008年11期
5 周谆;杨炳儒;;基于认知的流形学习方法概要[J];计算机科学;2009年05期
6 唐皓;刘希玉;;基于密度流形上的空间聚类[J];河北大学学报(自然科学版);2009年06期
7 邵超;张斌;万春红;;流形学习中邻域大小参数的合适性判定[J];计算机工程与应用;2010年20期
8 李昕;钱旭;王自强;;用于文档聚类的间隔流形学习算法研究[J];计算机工程;2010年15期
9 陈晓红;陈松灿;;监督型局部保持的典型相关分析[J];小型微型计算机系统;2010年08期
10 刘辉;杨俊安;王一;;基于流形学习的声目标特征提取方法研究[J];物理学报;2011年07期
中国重要会议论文全文数据库 前10条
1 董广军;纪松;朱朝杰;;基于局部线性嵌入流形学习的高光谱影像分类技术[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
2 邱慧宁;黄剑;陈羽;赖剑煌;;基于UDP的半监督学习及其在人脸识别的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年
3 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
4 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文摘要集[C];2007年
5 何慧;陈博;郭军;;基于流形学习的半监督文本情感分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
6 傅向华;王志强;赵良辉;杜文峰;;基于拉普拉斯流形正则化的半监督图像检索[A];第四届和谐人机环境联合学术会议论文集[C];2008年
7 宋欣;王娟;张斌;叶世伟;;流形学习算法分析及在人脸数据库上的应用[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
8 刘立;余正涛;王蒙;毛存礼;郭剑毅;;结合词相关特征与流行学习的中文问句分类[A];第六届全国信息检索学术会议论文集[C];2010年
9 董冀媛;穆志纯;欧阳定恒;;基于最大线性片划分的局部切空间排列算法及在多姿态人耳识别中的应用[A];第二十九届中国控制会议论文集[C];2010年
10 曾九孙;郜传厚;罗世华;李启会;;基于增量LPP的在线过程监控方法及其应用[A];中国自动化学会控制理论专业委员会C卷[C];2011年
中国博士学位论文全文数据库 前10条
1 刘晓宁;基于三维模型的人脸识别技术研究[D];西北大学;2006年
2 王雷;基于全局统计与局部几何性质的数据降维算法研究[D];中国科学技术大学;2009年
3 王国强;嵌入邻域判别关系的子空间人脸识别算法研究[D];大连理工大学;2008年
4 金一;人脸识别中的若干算法研究[D];北京交通大学;2009年
5 李学华;基于核与软计算方法的模式分析[D];电子科技大学;2009年
6 杜春华;人脸特征点定位及识别的研究[D];上海交通大学;2008年
7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
8 于雪莲;基于核方法和流形学习的雷达目标距离像识别研究[D];电子科技大学;2008年
9 舒文杰;RNA二级结构拓扑特征化关键技术及其应用研究[D];国防科学技术大学;2007年
10 田春娜;复杂背景下多视角人脸检测与识别[D];西安电子科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 黄运娟;等谱流形学习算法及其应用研究[D];苏州大学;2014年
2 周晓勇;流形学习算法研究与应用[D];安徽大学;2014年
3 陈磊;基于线性子空间与流形学习的人脸识别算法研究[D];西安电子科技大学;2014年
4 丁娇;基于流形学习算法的植物叶片图像识别方法研究[D];安徽大学;2014年
5 裴书芳;基于流形学习的无线传感器网络入侵检测方法研究[D];河北师范大学;2014年
6 李丽敏;自相交流形学习方法[D];浙江大学;2006年
7 贺惠新;基于流形学习的高维流场数据分类研究[D];哈尔滨工业大学;2008年
8 王添翼;基于卷积网络的三维模型特征提取[D];吉林大学;2006年
9 钟吉英;半监督学习算法在脑—计算机接口中的应用研究[D];电子科技大学;2009年
10 张炯;基于流形学习的纤维丛学习算法研究[D];苏州大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026