收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向时间敏感对象的垂直搜索引擎关键技术研究

吴羽  
【摘要】:随着搜索服务的逐渐普及深化,用户针对特定领域的搜索需求逐渐明确、对搜索结果的个性化程度和实时性要求逐渐增高,使得基于垂直搜索领域的高效信息检索服务已成为搜索引擎市场的热点。垂直搜索引擎通过聚焦抓取、智能调度、高维索引等技术,根据特定的领域知识和用户的搜索习惯,为用户提供特定垂直领域中时效性更高,更为个性化、专业化的搜索结果。 然而现有大多数的垂直搜索引擎中存在1)爬虫系统抓取模式被动,目标抓取与用户查询时延过长;2)爬虫系统抓取调度盲目,抓取资源利用率低;以及3)索引系统性能低下,对特定文本信息的特征提取与聚类缺乏有效算法等问题,已经严重地桎梏了垂直搜索引擎市场的健康发展。本文试图对这些热点问题及其关键技术进行系统性研究。本文的主要贡献和创新点如下: 1.爬虫系统的主动式聚焦抓取技术研究 针对爬虫系统抓取模式被动,目标抓取与用户查询时延过长的问题,提出了语义驱动的查询驱动聚焦抓取技术,基于领域知识理解用户查询,提供了查询向目标网页的语义转换,实现了针对用户查询的主动式抓取,解决了目标抓取与用户查询时延过长的问题。充分的实验和在真实项目中的初步应用表明,查询驱动聚焦抓取技术为用户提供了10秒级搜索结果,大大降低了时延,极大的提高了用户体验。 2.爬虫系统的智能调度技术研究 针对爬虫系统抓取调度盲目、利用率低的问题,基于网页文档变化的泊松过程建模,在对单个对象新鲜度进行定量估算的基础上,提出对象级细粒度资源调度算法PoissonRank,实现了针对变化的抓取调度,极大地提高了抓取资源的利用率。仿真分析和商用项目中的应用表明了该模型的有效性,该调度技术能提高抓取资源利用率并更好的捕捉对象的变化。大量真实环境中的实验验证了对象分布规律和泊松过程建模的正确性以及用户体验的提升,同时PoissonRank对系统带来的额外开销很低,具有很高的可扩展性。 3.索引系统中高维索引的在线更新技术研究 针对索引系统中多媒体高维索引在线更新效率低下的问题,对高维索引中的LSH算法进行优化,提出了基于压缩位图(Compressed Bitmap)的CB-LSH高维索引技术,通过算子布尔代数化后引入压缩位图索引对LSH的添删改性能进行了全面提升,解决了高维索引在线更新的性能问题。理论分析证明了CB-LSH在空间占用和时间复杂度上的改善;大量真实数据上的实验结果表明,与现有的LSH算法相比,CB-LSH节约了三分之一的内存占用,删除性能提高了近一个数量级,查询性能提高了数倍,插入性能提高了约一半;真实项目验证了CB-LSH应用于在线实时更新的海量多媒体对象检索系统中是有效可行的。 4.索引系统中文本信息的结果合并技术研究 针对垂直领域中文本信息长度短、专业性强、噪音多,索引系统中聚类效果差的问题,提出了一种基于自然语言触发对的文本聚类技术TrigSigs,基于一阶触发对充分挖掘词汇隐含属性的关联关系,学习领域专业词汇、去除噪音词汇并提取关键特征词汇,实现了细粒度对象级聚类技术。仿真实验表明,该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 富崇大,白凯;选择工艺装备的模糊决策法[J];技术经济;1996年10期
2 蒋宏武;应用软件设计方法比较[J];物流技术;1996年05期
3 樊博,孟庆国,李一军;面向点状对象的空间距离谓词计算方法[J];地理与地理信息科学;2005年05期
4 吴孟书;吴喜之;;一种改进的K-Prototypes聚类算法[J];统计与决策;2008年05期
5 秦毅;;试论β系数风险评价模型在风险导向内部审计中的应用[J];审计研究;2011年04期
6 钟晴江;苏健;;基于元信息的最小决策规则集获取方法[J];计算机系统应用;2006年04期
7 鄂旭;高学东;焦吉成;张骏;;基于粗糙集的客户市场细分算法[J];清华大学学报(自然科学版);2006年S1期
8 尹锋;;利用JavaScript实现页面的弹出式菜单[J];科技咨询导报;2007年30期
9 吴燕;;科技文档的层次聚类分析[J];商业文化(学术版);2008年01期
10 杨祖龙;;基于组件技术的Excel文件结构分析与应用[J];中国金融电脑;2008年09期
11 陆鹏;;基于MapInfo的地理信息系统在配电线路管理系统中的应用[J];广西质量监督导报;2008年09期
12 樊博;;基于空间聚类挖掘的城市应急救援机构选址研究[J];管理科学学报;2008年03期
13 岳意定;刘国清;谭洁;;基于模糊C均值聚类法和粗糙集理论的评价方法研究[J];统计与决策;2009年15期
14 徐忠健;陈泳;刘群;;基于改进的K-均值聚类的新发展用户虚开分析[J];井冈山大学学报(自然科学版);2010年05期
15 成永笑,马春翔,王光斗;轴承材料模糊优选[J];工业技术经济;1994年01期
16 李一军,樊博;空间OLAP技术研究[J];管理科学学报;2003年04期
17 费军;数学思维与审计理论研究[J];军事经济学院学报;2004年01期
18 高峰;;基于ActiveX Automation技术的AutoCAD二次开发[J];科技经济市场;2006年07期
19 荣飞;刘春凤;;区域科技创新能力评价与态势分析[J];河北大学学报(哲学社会科学版);2006年06期
20 侯茜;李翠平;李仲学;;基于库存ABC分类法的矿山企业物料管理[J];矿冶;2006年04期
中国重要会议论文全文数据库 前10条
1 沈宇希;于沛;周荣贵;刘怡;;用于多媒体DBMS的VA-cluster file高维索引方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 刘彬;李建中;何震瀛;;基于XML映射对象的对象聚类[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 杨志荣;李虹;李磊;;利用高维索引实现关系数据库的向量连接运算[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 连杰鑫;刘家茂;顾宁;;基于协作依赖的工作流过程优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 冯玉才;梁俊杰;曹忠升;;基于主存的优化高维索引树[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
7 王建华;;对象——关系超媒体数据模型的原理、方法及应用[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
8 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
9 黄震华;向阳;林琛;;EAPSC:有效聚类SKYLINE对象集[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 张兆功;李建中;;度量空间中相似性搜索的并行算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 崔江涛;高维索引技术中向量近似方法研究[D];西安电子科技大学;2005年
3 梁俊杰;大规模图像库的高维索引技术研究[D];华中科技大学;2007年
4 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年
5 李嘉;基于内容的多光谱遥感影像检索若干关键技术研究[D];华中科技大学;2009年
6 赵锟;基于多级对象的图像矢量化研究[D];上海大学;2011年
7 邓水光;Web服务自动组合与形式化验证的研究[D];浙江大学;2007年
8 夏骄雄;数据资源聚类预处理及其应用研究[D];上海大学;2007年
9 黄震华;子空间SKYLINE查询若干关键问题的研究[D];复旦大学;2008年
10 潘鹏;时空数据库的索引机制及查询策略研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘东昊;对象级粗粒度切片方法研究[D];郑州大学;2011年
2 卢佳;高维索引技术及其在医学图像数据库中的应用[D];江苏大学;2005年
3 薛万宇;医学图像数据库原型系统研究[D];江苏大学;2007年
4 李彬;医学影像资源检索平台中索引技术研究[D];沈阳工业大学;2011年
5 司蓁;基于纹理和形状特征的图像检索技术研究[D];西安电子科技大学;2007年
6 禹亮;基于内容的图像索引和浏览算法研究[D];湖南大学;2007年
7 赵刚;多媒体数据库降维与索引算法研究及系统实现[D];吉林大学;2007年
8 桂长青;基于多重倒排的医学图像检索技术[D];江苏大学;2007年
9 吴爽;对象集合动态可变的概率规划算法的研究与实现[D];东北师范大学;2008年
10 姚林;离群点快速挖掘算法的研究[D];江苏大学;2008年
中国重要报纸全文数据库 前4条
1 清水编译;用AJAX实现聊天应用[N];计算机世界;2006年
2 东北大学 张春明 姜绍飞 张春丽;Outlook的Automation对象编程方法[N];计算机世界;2001年
3 井之;Fireworks与Dreamweaver的结合[N];网络世界;2001年
4 彭黎明;“古代建筑保护技术信息系统研发”与“古代建筑虚拟修复及web表现技术研究”课题通过验收[N];中国文物报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978