收藏本站
《天津大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

面向Web的XML文档数据管理及分类检索技术研究

阎红灿  
【摘要】: 随着计算机和互联网技术的发展,网络已经成为资源数量最多、种类最全、规模最大的综合信息库,这些信息大致可分为两类:结构化数据和非结构化数据,据统计,非结构化数据占有整个信息量的80%以上,在信息传递过程中,80%的时间是用来获取信息,因此,如何从Web网上科学高效地获取信息即是本文研究的意义所在。 XML数据库技术和Web搜索引擎技术的发展为提高Web信息检索特别是非结构化数据的检索效率带来了希望。因为XML数据库技术提供了信息存储和管理的技术保障,而搜索引擎技术为Web信息检索构建了操作平台。基于此,本文针对XML文档数据管理技术及面向Web的分类检索技术做了深入细致的研究。本文主要研究内容和创新性工作如下: 首先,综述和分析了纯XML数据库和使能XML数据库的管理技术及索引机制,在分析各种数据模型特点基础上,研究讨论了以关系数据库作为存储源、扩展XQuery作为数据模型的优势,通过对XQuery数据模型的扩展,提出了基于Schema模式约束的XML数据存储和索引结构SBXI,从用户逻辑层面定义了XML文档更新语言XUL,并应用Kweelt查询系统和JAVA技术实现了文档更新的关键技术。 然后,解决了XML网页分类的关键技术-信息检索模型问题。由于传统的向量空间模型不能适用于XML文档结构相似度比较,提出了基于TreeMiner算法的频繁结构向量模型,构建了文档特征矩阵的表示方法和相似度函数;并对该模型拓展,进一步提出频繁结构层次向量模型,不仅挖掘XML文档的结构信息,同时抽取表征文档内容的关键词信息,提高了相似度量的准确率。通过对频繁结构挖掘算法TreeMiner进行改进,使其更适合大文档集合的频繁结构挖掘,实验证明基于频繁模式的检索模型具有很好的网页分类效果。 最后,提出了分类检索与全文检索结合的二次检索策略,从系统设计角度构架了以频繁结构层次向量模型作为信息检索模型、SBXI作为索引结构的基于主题分类的Web文献全文检索搜索引擎的系统结构,并讨论了其主要构件的功能和工作流程。
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.3

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期
2 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期
3 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期
4 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期
5 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期
6 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期
7 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期
8 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
9 张爱军;;电子商务技术的创新发展趋势[J];电脑知识与技术;2011年26期
10 钟寿福;吴伟信;;中学研究性学习网络支撑平台的设计与实现[J];福建电脑;2011年07期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年
3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年
4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年
5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年
6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
2 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
10 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 张囡;基于概念的语义Web服务匹配算法的研究及其在配送中心系统的应用[D];华南理工大学;2010年
2 张敏;面向Web应用的测试适配技术研究[D];山东师范大学;2010年
3 涂丘;一种基于Web界面的协同文档管理系统的部署与实施[D];电子科技大学;2010年
4 崔宏亮;面向Web服务体系的协同办公系统的设计与实现[D];电子科技大学;2010年
5 高洁;基于Web信息的内容及其特征提取方法的研究[D];电子科技大学;2010年
6 李鹏;基于信誉度的Web服务选择研究[D];湖南工业大学;2009年
7 马丽莎;基于WEB操作平台下的办公自动化系统[D];电子科技大学;2009年
8 向剑峰;基于OWL-S的语义Web服务组合模型的研究[D];湖北工业大学;2011年
9 郭清军;P2P语义web服务研究与实现[D];广东工业大学;2011年
10 苏洋;基于数字信封的Web服务安全模型设计[D];西安建筑科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026