收藏本站
《中国科学技术大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

用于搜索的网页可视化摘要技术研究

焦斌星  
【摘要】:互联网的发展使得搜索引擎成为了用户寻找信息的最主要手段,而准确和迅速是用户对搜索引擎的最主要需求。然而目前搜索引擎的准确度还无法完全满足用户的需求,所以如何能让用户在现有的还不够准确的搜索技术下也能够迅速找到想要的信息成为了一个非常迫切的需求。 网页中含有很多可视化的多媒体信息,比如图像、动画、视频等等。俗话说“一幅图抵得上千言万语”,搜索引擎在展现搜索结果的时候加上这些多媒体信息,能够让用户在很短的时间内得到更多的信息量,以便于用户迅速找到想要的信息。这些有可能帮助用户搜索的可视化多媒体信息被称为网页的可视化摘要。由于图像是动画和视频的基本组成部分,所以本文对图像作为可视化摘要的关键问题进行了深入的研究。 网页自身含有的图像是可视化摘要的一个可靠来源,我们称之为网页内部图像。对于这类图像,我们提出重要性模型对其表征网页的能力进行衡量:越重要的图像,越适合作为可视化摘要。然而,也有很多网页不存在重要的内部图像,所以我们提出从互联网中获取与目标网页相关的图像,我们称之为网页外部图像。对于这类图像,我们提出算法对其与目标网页的相关性进行衡量:越相关的图像,越适合作为可视化摘要。另外,我们将这两种基于自然图像的可视化摘要与缩略图等合成图像进行了比较,并以分析结果为出发点,提出了最优可视化摘要的选择算法。本文的主要研究结果有如下几点: 1.提出了网页内部图像的重要性衡量模型。由于在网页中存在大量的广告图像,装饰图像等,所以我们提出基于图像特征提取和机器学习的算法来衡量图像重要性。该算法从四个层次提取图像特征,并利用基于提升树的LamdaMART算法对图像的重要性建立模型。 2.提出了网页外部图像的获取和相关性衡量算法。我们提出了基于关键词提取和图像搜索的外部相关图像的获取方法,并基于图像的文字信息与视觉信息衡量其与目标网页的相关性。外部图像获取系统能够为近一半的无重要内部图像的网页找到相关的外部图像,且相关性衡量算法能够达到很高的精度。 3.对网页内部图像,网页外部图像以及缩略图,Visual Snippet进行了深入的比较。我们利用人工标注的数据比较可视化摘要在不同网页中的效果,比如,重要性得分很高的内部图像是有内部图像的网页的可靠可视化摘要,而缩略图适合作为满足“可视区域较小”,或“在截屏区域内有重要图像”,或“截屏区域内有常见网站的logo"等特点的网页的可视化摘要。另外,我们还通过用户研究分析可视化摘要在理解网页和重新寻找网页这两个应用中的实用性。 4.提出了从网页内部图像和网页外部图像中选择最优可视化摘要的统一算法。由于网页内部图像和网页外部图像各有其优缺点,所以我们提出了基于聚类的最优可视化摘要选择算法。好的可视化摘要需要满足相关性、重要性和典型性这三个特性,所以该算法利用之前提出的相关性和重要性模型衡量可视化摘要的前两个特性,而利用聚类去体现典型性。我们将相关性和重要性作为聚类的先验知识,采用近邻传播聚类算法将三者有机地结合起来。在聚类完成之后,最好的聚类中心被选为最优可视化摘要。算法在客观和主观评价上都显示了很好的性能。客观评价中,算法的NDCG@1能够达到0.6左右。主观评价中,算法选出的图像被多数用户认同可以用以表征目标网页。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.41

【相似文献】
中国期刊全文数据库 前10条
1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
9 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
10 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 吴夏炎 马立玫 马晓东;数据采集自动化远程监控可视化信息查寻一点清[N];中国石油报;2003年
9 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026