收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于结构分析的大规模WWW文本信息检索技术的研究

冯国臻  
【摘要】: Web是人类历史上承载数据最丰富的信息库,但在Web上查找所需要的信息却很困难。由于Web的海量规模、异构、动态等特性,使得Web IR比经典IR表现出更大的挑战性,广泛地引起了各方面的研究兴趣。 本文研究了Web文本信息检索技术,将该领域当前林林总总的研究分为四大类:经典IR流派、Metadata流派、数据库流派和链接分析流派。经典IR流派继续研究IR领域理论,而其他三种流派则抓住Web与经典IR检索对象,即文献集合的重要区别:结构性特征,在各自原有理论背景下发展起来的。本 论文的工作主要包括以下方面: 提出面对极其海量、异构的检索对象,将Web看作无结构文档集合的常规的“万能”搜索引擎不是好的解决方式。我们提出将Web看作是有结构的数据对象,构造多个不同检索领域、覆盖范围和检索粒度、服务特色的搜索引擎,它们相互合作形成资源消耗最低、服务最优的Web IR服务框架。 提出位于Web IR服务框架根节点处的搜索引擎,检索对象是整个Web,这类搜索引擎应该全局性地覆盖索引整个检索范围,有重点地把握Web上最重要最主流的数据和结构,提出以具有相同主题的页面组取代页面作为搜索引擎的基本功能单位,提供粗粒度的概念检索服务。 提出用链接分析技术挖掘发现页面之间的关系,聚类形成一个个具有各自主题的页面组,同时,链接分析技术找出的页面组包含的也是Web中质量最好最重要的一部分页面。页面组与页面相比有主题突出、稳定、数量少的特点,同时也吻合用户的大多数信息需求和Web页面隐性自发组织情况。 提出采用主题式取代全文方式进行页面组的标引,避免将大量无用信息、重复信息都存入索引库。标引时着从Web和页面的结构出发,挖掘利用已经存在的、他人作的标引性文本,以及重要文本作为标引文本。论文比较了采用这种标引方式和常规标引方式构造的系统各自的检索效果。提出在检索能力之外,用查准率、前趋度作为定量评价搜索引擎检索质量的参数。 为了检验Web IR中的上述技术,我们构造了大规模综合型搜索引擎原型系统SAInSE,并给出了相同的查询在SAInSE和Google上的检索实例。从实例对比可见,当查询词涉及多个主题时,SAInSE能够将相关页面分类(页面组)提交;SAInSE的页面组超越了字面匹配,对


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于志敏;张文德;;基于自然语言处理的信息检索[J];山东科技大学学报(自然科学版);2006年01期
2 韩化雪;康鲲鹏;;基于WEB搜索引擎的发展[J];福建电脑;2006年09期
3 周文军;;网络信息检索的发展与研究[J];科技情报开发与经济;2006年15期
4 曾忠平;;数字图书馆中基于内容的多媒体检索技术[J];中国科技信息;2009年03期
5 杨治秋;;信息检索技术在教学中的应用与研究[J];科技创新导报;2009年11期
6 赵鹏;一种基于压缩的全文本数据库倒排索引方法[J];黑龙江大学自然科学学报;2005年03期
7 张桂玲;阎敏;;数据库及其检索技术的发展趋势[J];现代情报;2006年02期
8 丁明;祝博;李龙森;;网络信息检索发展趋势展望[J];科技资讯;2006年04期
9 焦丽;;我国信息检索研究综述[J];情报探索;2007年06期
10 王宇佳;;网络信息检索发展趋势摭谈[J];现代情报;2008年07期
11 李如平;;搜索引擎技术及应用研究[J];西昌学院学报(自然科学版);2010年03期
12 赵静;;网络信息检索可视化研究[J];数字技术与应用;2010年08期
13 徐颖;;科技图书文献的信息检索方法概述[J];科技创新导报;2010年34期
14 方正;;信息检索中关键技术的研究[J];大庆师范学院学报;2011年03期
15 刘志舜;;关于Web科技信息检索技术的几点思考[J];黑龙江科技信息;2011年15期
16 刘玲玲;现代图书馆服务研究[J];河南图书馆学刊;2002年03期
17 杜治波;明均仁;;现代信息存取技术发展探析[J];今日科苑;2008年14期
18 曾曦梅;施国君;;基于神经网络的动态反馈智能检索技术[J];科技创新导报;2008年27期
19 张明宝;米传民;;一种基于UIMA的企业级信息检索系统研究[J];情报杂志;2009年04期
20 于林海;;图书馆信息检索网格化应用现状分析[J];图书馆学研究;2009年04期
中国重要会议论文全文数据库 前10条
1 林水灿;;现代技术与传统方法交融下的信息检索技术[A];福建省社会科学信息工作年会网络时代文献信息的传统与现代学术研讨会论文集(1)[C];2003年
2 夏定元;;图书情报检索技术的走向[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
3 施水才;肖诗斌;都云程;王洪俊;;TRS中文信息检索技术的发展(摘要)[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 沈勇;;基于隐写术的信息检索方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 魏元珍;杨沂凤;;信息检索教学课件的开发与体会[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年
6 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 蔡勋梁;赵军;;信息检索中基于MLS的语言模型准确性分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 韩咏;孔蕾蕾;齐浩亮;;科技论文原创性检查系统的研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 黄名选;严小卫;张师超;;基于完全加权关联规则挖掘的信息检索模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 韩咏;孙育华;张帆;齐浩亮;;科技论文原创性检查系统的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 于士涛;基于问答网络论坛知识体系的自动问答系统研究[D];南开大学;2009年
2 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
3 张亮;基于机器学习的信息过滤和信息检索的模型和算法研究[D];天津大学;2007年
4 凌波;基于对等计算的信息检索技术[D];复旦大学;2004年
5 高明霞;问答式OWL知识检索技术[D];北京工业大学;2008年
6 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
7 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
8 郑贵滨;基于内容的音频信息检索技术研究[D];哈尔滨工业大学;2006年
9 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
10 何新;基于内容的音频信息分类检索技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐莹;信息检索中的查询优化技术研究[D];合肥工业大学;2008年
2 王泽胤;全文信息检索的快速索引文件结构及系统的设计与实现[D];吉林大学;2009年
3 司建军;油田信息网信息检索技术研究与应用[D];哈尔滨工程大学;2002年
4 高继峰;基于语义Web的智能信息检索系统研究[D];郑州大学;2006年
5 王慧慧;基于自然语言处理的问答系统研究[D];电子科技大学;2006年
6 操卫平;基于结构化向量空间模型的中文信息检索系统研究与实现[D];北京工业大学;2008年
7 韩亮;基于本体的消防信息检索系统的研究[D];大连海事大学;2008年
8 刘金亮;汽车行业垂直搜索系统原型的设计与关键模块的实现[D];北京邮电大学;2008年
9 吕翔;基于Ontology的政府信息资源检索系统分析与设计[D];南京航空航天大学;2008年
10 陈丽珍;维文网络中不良文本信息检索、监控系统的研究[D];新疆大学;2006年
中国重要报纸全文数据库 前10条
1 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
2 易宝北信公司 施水才;信息检索技术应用新方向:普及检索和知识检索[N];中国企业报;2001年
3 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
4 黄宇;共享资源 助力创新[N];北海日报;2010年
5 记者 何馨;数字化为古籍整理带来划时代的变革[N];中国社会科学院院报;2008年
6 本报记者 孟飞鸿;百度 震后成都照“摆”不惧[N];成都日报;2008年
7 ;蓦然回首 李彦宏在阑珊处[N];亚太经济时报;2005年
8 筱瑶;信息整合平台技术呼之欲出[N];中国信息报;2003年
9 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
10 ;TRS欲做企业搜索领域的Google[N];计算机世界;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978