收藏本站
《浙江大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向时间敏感对象的垂直搜索引擎关键技术研究

吴羽  
【摘要】:随着搜索服务的逐渐普及深化,用户针对特定领域的搜索需求逐渐明确、对搜索结果的个性化程度和实时性要求逐渐增高,使得基于垂直搜索领域的高效信息检索服务已成为搜索引擎市场的热点。垂直搜索引擎通过聚焦抓取、智能调度、高维索引等技术,根据特定的领域知识和用户的搜索习惯,为用户提供特定垂直领域中时效性更高,更为个性化、专业化的搜索结果。 然而现有大多数的垂直搜索引擎中存在1)爬虫系统抓取模式被动,目标抓取与用户查询时延过长;2)爬虫系统抓取调度盲目,抓取资源利用率低;以及3)索引系统性能低下,对特定文本信息的特征提取与聚类缺乏有效算法等问题,已经严重地桎梏了垂直搜索引擎市场的健康发展。本文试图对这些热点问题及其关键技术进行系统性研究。本文的主要贡献和创新点如下: 1.爬虫系统的主动式聚焦抓取技术研究 针对爬虫系统抓取模式被动,目标抓取与用户查询时延过长的问题,提出了语义驱动的查询驱动聚焦抓取技术,基于领域知识理解用户查询,提供了查询向目标网页的语义转换,实现了针对用户查询的主动式抓取,解决了目标抓取与用户查询时延过长的问题。充分的实验和在真实项目中的初步应用表明,查询驱动聚焦抓取技术为用户提供了10秒级搜索结果,大大降低了时延,极大的提高了用户体验。 2.爬虫系统的智能调度技术研究 针对爬虫系统抓取调度盲目、利用率低的问题,基于网页文档变化的泊松过程建模,在对单个对象新鲜度进行定量估算的基础上,提出对象级细粒度资源调度算法PoissonRank,实现了针对变化的抓取调度,极大地提高了抓取资源的利用率。仿真分析和商用项目中的应用表明了该模型的有效性,该调度技术能提高抓取资源利用率并更好的捕捉对象的变化。大量真实环境中的实验验证了对象分布规律和泊松过程建模的正确性以及用户体验的提升,同时PoissonRank对系统带来的额外开销很低,具有很高的可扩展性。 3.索引系统中高维索引的在线更新技术研究 针对索引系统中多媒体高维索引在线更新效率低下的问题,对高维索引中的LSH算法进行优化,提出了基于压缩位图(Compressed Bitmap)的CB-LSH高维索引技术,通过算子布尔代数化后引入压缩位图索引对LSH的添删改性能进行了全面提升,解决了高维索引在线更新的性能问题。理论分析证明了CB-LSH在空间占用和时间复杂度上的改善;大量真实数据上的实验结果表明,与现有的LSH算法相比,CB-LSH节约了三分之一的内存占用,删除性能提高了近一个数量级,查询性能提高了数倍,插入性能提高了约一半;真实项目验证了CB-LSH应用于在线实时更新的海量多媒体对象检索系统中是有效可行的。 4.索引系统中文本信息的结果合并技术研究 针对垂直领域中文本信息长度短、专业性强、噪音多,索引系统中聚类效果差的问题,提出了一种基于自然语言触发对的文本聚类技术TrigSigs,基于一阶触发对充分挖掘词汇隐含属性的关联关系,学习领域专业词汇、去除噪音词汇并提取关键特征词汇,实现了细粒度对象级聚类技术。仿真实验表明,该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:F49;F224

【参考文献】
中国期刊全文数据库 前10条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 赵岩;王晓龙;刘秉权;关毅;;融合聚类触发对特征的最大熵词性标注模型[J];计算机研究与发展;2006年02期
3 吴伟忠;崔建英;;基于时效性的垂直搜索及其应用[J];暨南大学学报(自然科学版);2007年03期
4 谢红薇;颜小林;余雪丽;;基于本体的Web页面聚类研究[J];计算机科学;2008年09期
5 张健沛,刘洋,杨静,代坤;搜索引擎结果聚类算法研究[J];计算机工程;2004年05期
6 金芝;基于本体的需求自动获取[J];计算机学报;2000年05期
7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
8 徐莹;;搜索引擎技术及其发展前瞻[J];科技情报开发与经济;2005年24期
9 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
10 周佳庆;吴羽;江锦华;陈刚;董轶;;实时垂直搜索引擎对象缓存优化策略[J];浙江大学学报(工学版);2011年01期
中国博士学位论文全文数据库 前1条
1 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前1条
1 程守远;基于图像检索技术的领带花型检索的研究[D];东华大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
6 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
7 祝伟华;李嘉毅;刘斌斌;;二手汽车交易信息垂直搜索网的设计[J];重庆工学院学报(自然科学版);2008年08期
8 章立;陈蜀宇;;一种针对商品价格进行实时垂直搜索的方法[J];重庆工学院学报(自然科学版);2008年10期
9 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期
10 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
4 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 刘剑;王智学;;基于本体模型的需求分析[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
6 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 李雪竹;周国祥;;基于本体的语义网技术在信息检索中的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
8 曹玮祺;梁华瑞;朱雷;李涓子;王克宏;;基于半结构化信息模型的信息检索[A];第六届全国计算机应用联合学术会议论文集[C];2002年
9 毛颖;周源远;王继成;;信息过滤技术研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王英照;面向信息网络经营的客户需求研究[D];哈尔滨工程大学;2010年
2 张宇;个性化移动内容服务的模型和支持技术研究[D];华中科技大学;2010年
3 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 魏巍;定制产品智能重组设计关键技术与方法研究及其应用[D];浙江大学;2010年
6 田精白;网络式软件非功能需求分析方法及其应用[D];武汉大学;2009年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
9 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
10 刘勇;基于本体的家电领域功能知识表达研究[D];中国海洋大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
5 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
6 何璐;零码平台业务自动建模的研究与实现[D];哈尔滨工程大学;2010年
7 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
8 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年
9 杜海波;本体在医疗信息检索系统中的应用研究[D];长春工业大学;2010年
10 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 黄祥林,沈兰荪;基于内容的图像检索技术研究[J];电子学报;2002年07期
3 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
4 葛晓菁,张宏喜,李兰英;图像检索中纹理特征提取的研究[J];哈尔滨理工大学学报;2005年01期
5 张强弓,喻国宝,廖湖声,隋树林;一种元搜索引擎的查询结果处理模型[J];华南理工大学学报(自然科学版);2004年S1期
6 窦建军,文俊,刘重庆;基于颜色直方图的图像检索技术[J];红外与激光工程;2005年01期
7 林鸿飞,杨元生;用户兴趣模型的表示和更新机制[J];计算机研究与发展;2002年07期
8 张志强,邢春晓,周立柱,孙静,钱乾;SESQ系统的一种查询优化策略[J];计算机研究与发展;2004年10期
9 刘丽,须文波;一种新型的互联网智能元搜索引擎[J];江南大学学报;2002年01期
10 陈俊杰,薛云,宋翰涛,陆玉昌,余雪丽;基于Agent的元搜索引擎的研究与设计[J];计算机工程与应用;2003年10期
【相似文献】
中国期刊全文数据库 前10条
1 富崇大,白凯;选择工艺装备的模糊决策法[J];技术经济;1996年10期
2 蒋宏武;应用软件设计方法比较[J];物流技术;1996年05期
3 樊博,孟庆国,李一军;面向点状对象的空间距离谓词计算方法[J];地理与地理信息科学;2005年05期
4 吴孟书;吴喜之;;一种改进的K-Prototypes聚类算法[J];统计与决策;2008年05期
5 秦毅;;试论β系数风险评价模型在风险导向内部审计中的应用[J];审计研究;2011年04期
6 钟晴江;苏健;;基于元信息的最小决策规则集获取方法[J];计算机系统应用;2006年04期
7 鄂旭;高学东;焦吉成;张骏;;基于粗糙集的客户市场细分算法[J];清华大学学报(自然科学版);2006年S1期
8 尹锋;;利用JavaScript实现页面的弹出式菜单[J];科技咨询导报;2007年30期
9 吴燕;;科技文档的层次聚类分析[J];商业文化(学术版);2008年01期
10 杨祖龙;;基于组件技术的Excel文件结构分析与应用[J];中国金融电脑;2008年09期
中国重要会议论文全文数据库 前10条
1 沈宇希;于沛;周荣贵;刘怡;;用于多媒体DBMS的VA-cluster file高维索引方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 刘彬;李建中;何震瀛;;基于XML映射对象的对象聚类[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 杨志荣;李虹;李磊;;利用高维索引实现关系数据库的向量连接运算[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 连杰鑫;刘家茂;顾宁;;基于协作依赖的工作流过程优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 冯玉才;梁俊杰;曹忠升;;基于主存的优化高维索引树[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
7 王建华;;对象——关系超媒体数据模型的原理、方法及应用[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
8 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
9 黄震华;向阳;林琛;;EAPSC:有效聚类SKYLINE对象集[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 张兆功;李建中;;度量空间中相似性搜索的并行算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
中国重要报纸全文数据库 前4条
1 清水编译;用AJAX实现聊天应用[N];计算机世界;2006年
2 东北大学 张春明 姜绍飞 张春丽;Outlook的Automation对象编程方法[N];计算机世界;2001年
3 井之;Fireworks与Dreamweaver的结合[N];网络世界;2001年
4 彭黎明;“古代建筑保护技术信息系统研发”与“古代建筑虚拟修复及web表现技术研究”课题通过验收[N];中国文物报;2010年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 崔江涛;高维索引技术中向量近似方法研究[D];西安电子科技大学;2005年
3 梁俊杰;大规模图像库的高维索引技术研究[D];华中科技大学;2007年
4 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年
5 李嘉;基于内容的多光谱遥感影像检索若干关键技术研究[D];华中科技大学;2009年
6 赵锟;基于多级对象的图像矢量化研究[D];上海大学;2011年
7 邓水光;Web服务自动组合与形式化验证的研究[D];浙江大学;2007年
8 夏骄雄;数据资源聚类预处理及其应用研究[D];上海大学;2007年
9 黄震华;子空间SKYLINE查询若干关键问题的研究[D];复旦大学;2008年
10 潘鹏;时空数据库的索引机制及查询策略研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘东昊;对象级粗粒度切片方法研究[D];郑州大学;2011年
2 卢佳;高维索引技术及其在医学图像数据库中的应用[D];江苏大学;2005年
3 薛万宇;医学图像数据库原型系统研究[D];江苏大学;2007年
4 李彬;医学影像资源检索平台中索引技术研究[D];沈阳工业大学;2011年
5 司蓁;基于纹理和形状特征的图像检索技术研究[D];西安电子科技大学;2007年
6 禹亮;基于内容的图像索引和浏览算法研究[D];湖南大学;2007年
7 赵刚;多媒体数据库降维与索引算法研究及系统实现[D];吉林大学;2007年
8 桂长青;基于多重倒排的医学图像检索技术[D];江苏大学;2007年
9 吴爽;对象集合动态可变的概率规划算法的研究与实现[D];东北师范大学;2008年
10 姚林;离群点快速挖掘算法的研究[D];江苏大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026