收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web网页的时态文本索引研究

陈鸿  
【摘要】:随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索引擎发展的重要方向之一。 本文以时态文本搜索引擎为背景,重点研究了结合Web网页中的时间信息与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文的主要贡献如下: (1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到索引处理中。我们以B+树、倒排文件和MAP21树为基础,研究并比较了五种混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘I/O时间以及查询时间的性能比较,得出“先倒排索引后MAP21树”的索引结构具有较好的性能。 (2)提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构是对先前验证的较好的“先倒排文件后MAP21树”的时态文本索引结构的改进。针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤其是对于首要时间的研究,将内容时间区间转换成内容时间点,将MAP21树用哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得到哈希的时态文本索引结构比“先倒排文件后MAP21树”的索引结构更优,更适合作为时态文本搜索引擎的索引结构。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期
2 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期
3 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期
4 miniworm;;圆角的革命[J];电脑爱好者;2007年07期
5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
6 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期
7 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期
8 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期
9 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期
10 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期
11 汪学祥;;企业内部网软件平台的一种构建方案[J];山西煤炭管理干部学院学报;2007年03期
12 孙媛;;Java Applet内嵌网页运行初探[J];科技风;2010年12期
13 孙媛;;Java Applet运行浅论[J];电脑知识与技术;2010年21期
14 红客王子;;装个文件监控器 保护网站安全[J];电脑爱好者;2011年09期
15 林栋;网页文件的检测工具HTML Validator[J];多媒体世界;2000年01期
16 张欣欣,薛冰冰;基于数据挖掘技术的BBS的安全管理[J];洛阳工业高等专科学校学报;2003年04期
17 郑建标;;基于VFP的网页客户端组件的开发与应用[J];现代电子技术;2006年17期
18 miniworm;;虫虫织网记之三:此时无声胜有声 网页设计中怎样选择适当的字体、字号[J];电脑爱好者;2007年03期
19 阎月;;浅议网页制作的一般规范[J];科技信息(学术研究);2007年01期
20 赵满来;杨有占;;浅探“现代教学管理信息系统”的成绩表导出方法[J];陇东学院学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 汤庸;刘海;郭欢;叶小平;;TempDB:时态数据管理系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 张春海;孙薇;;一种基于时态粒度整合模块的TDBMS扩展[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
4 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 姚春龙;郝忠孝;迟乐军;;一个新的具有多时间粒度的时态依赖[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 汤娜;汤庸;道炜;;时态XML信息处理中间件的设计与实现[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 钟勇;秦小麟;林冬梅;;一种DBMS时态授权机制研究[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
9 汤娜;汤庸;刘小玲;吉永杰;;一种基于扩展时态XML模型的索引技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 乔磊;石冰;赵林;;TF&B索引:一种基于结构摘要思想的时态XML索引[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
3 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
6 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
7 白天;维护数据时间一致性的实时事务调度策略研究[D];华中科技大学;2012年
8 陈雯;基于本体框架的交通出行语义轨迹建模、标记及数据库研究[D];华东师范大学;2011年
9 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
10 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
2 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
3 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
4 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
5 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
6 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
7 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
8 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
9 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
10 孙鹏;网页水印技术研究[D];上海交通大学;2010年
中国重要报纸全文数据库 前10条
1 沈建华(农工党);官员们,请把汉语时态搞搞清楚[N];联合时报;2011年
2 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
3 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
4 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
5 刘成富;编辑网页有妙法[N];计算机世界;2004年
6 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
7 ;网站安全必不可少的保护神[N];中国计算机报;2005年
8 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
9 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
10 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978