收藏本站
收藏 | 论文排版

基于商空间理论的海量信息检索模型的研究

陈圣兵  
【摘要】: 随着计算机的广泛使用和Internet的迅速发展,我们所拥有的信息规模以几何速度爆炸式增长。对于海量的信息资源的检索,有两个急需解决的问题:其一,如何准确地从海量数据中检索出真正有用的信息,而不需要用户从一大堆反馈结果里人工查找;其二,如何实现一种高效的检索方法,对海量信息进行快速检索。以此为背景的海量信息检索技术引起了人们的极大关注,成为当前信息检索领域的主要研究课题之一。 商空间理论借鉴人类多层次多粒度观察和分析问题的方法,将不同粒度世界的结构与数学领域的集合和空间统一起来,建立对象模型,求解实际工程中的复杂问题。从更粗的粒度观察和分析问题,可以使得问题简单化,加快求解速度,特别适合于解决大规模复杂问题。本文以海量信息库为研究对象,商空间理论为工具,研究基于商空间理论的海量信息检索问题。主要研究内容及创新点包括以下几个方面: (1)深入研究商空间理论与方法,提出了分层递阶的信息库结构和相应的层次检索模型,分析了层次检索算法的时间复杂度。将信息库由传统的单层结构拓展为分层递阶的树形结构,并且对每个节点定义属性值,可以从不同层次揭示信息库的类别特征,实现不同信息颗粒之间的快速转换,而且很容易实现节点之间、节点与查询向量之间的比较和计算操作。层次检索算法改变传统的海量信息检索方法单纯依靠增加处理器数量提高检索速度的方式,利用分层逐步求精的方法,获得与查询相关的检索领域,然后在此领域内进行检索。由于相关领域的规模远小于整个信息空间,因而层次检索方法可以有效地解决海量信息检索中由于规模过大而造成的问题。 (2)研究信息库层次结构的建立方法,以及文档的多粒度颗粒化算法,从而构造出分层递阶结构的信息库。本文分别利用智能Agent技术和聚类技术,提出了信息库层次结构的构造方法,给出了基于本体的信息库结构的表示与存储方法。然后在本体结构的基础上,给出不同层次上等价关系和等价类的定义,构造出信息的商空间,提出分层递阶结构的信息库的构造算法。由于在构造商空间的过程,文档颗粒化是严格按照等价关系和等价类进行,因此本方法构建的信息库满足商空间理论的“保假原理”,这为层次检索奠定了数据基础。 (3)针对海量文档的分类问题,从多分类问题和训练速度问题两个方面,研究基于SVM的海量多类别文档的分类方法。首先,在分析传统的多类SVM的基础上,提出基于遗传算法的ECC-SVM,利用遗传算法解决ECC-SVM的码本问题,实现高效的多类SVM。然后,提出一种在原始样本空间下缩减训练样本规模的算法,以解决大规模样本集下SVM的训练问题。本算法中提出了一种新的距离计算方法,称为k近邻距离(k-DNN),利用k-DNN得到相应的类间距离和类内距离,以及噪声识别和样本重要性评价方法,提出训练样本的减样算法。k-DNN取最近k个样本与其距离的平均值,是传统距离的更一般化形式,可以有效克服传统距离的偶然性强、对噪声敏感、对样本分布敏感的局限,使得样本的类间距离和类内距离更加合理。 (4)研究层次检索模型的个性化问题,以及多层次结构下用户兴趣的动态获取方法。提出了个性化层次检索模型,使得本文的层次检索能够根据不同的用户背景给出不同的检索结果。然后,根据网站结构的层次化特征,提出基于蚁群算法的多层次用户兴趣的动态获取算法。本算法易于实现,能够提供更高层次、更多内容的用户兴趣信息,并且能有效克服传统挖掘方法只能获取长期兴趣、不能捕捉用户兴趣变化的局限,适合复杂多变的网络环境。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 许家梁;着眼于信息代表性和覆盖面的“成组信息检索”模型[J];情报学报;2005年02期
2 侯集体;;基于Ontology的知识检索系统研究[J];情报科学;2009年01期
3 梁洁;冯迎迎;朱明明;李秀波;;浅谈语义网检索模型[J];科技信息;2010年20期
4 曾立;;基于PETRI网的学习型信息检索系统设计[J];现代情报;2006年02期
5 马晓普;梁晶晶;赖国勇;;基于用户兴趣的个性化搜索引擎系统[J];攀枝花学院学报;2009年03期
6 汪清明;陈薇;;基于领域本体的智能检索技术研究[J];郑州轻工业学院学报(自然科学版);2009年03期
7 张红亮;;语音检索系统研究[J];情报探索;2009年08期
8 谭晓冬;超文本检索技术的发展[J];现代图书情报技术;1994年03期
9 侯震宇;信息检索系统中的相关性评价问题[J];现代图书情报技术;2003年02期
10 谢桂芳;;基于RDF的网络学习元数据描述和检索建模[J];信息技术;2006年08期
11 张小芳;;几种常见信息检索模型的分析与评价[J];情报杂志;2008年03期
12 黄颖臻;情报检索的模糊数学描述及确定归属度权的方法[J];图书情报知识;1988年02期
13 张玉峰,李敏,晏创业;论知识检索与信息检索[J];中国图书馆学报;2003年05期
14 杨波,黄克正,王燕涛,陈洪武;基于零件基因模型的虚拟设计资源库建模[J];机械科学与技术;2004年08期
15 罗卫;邹凯;;语义关联检索模型的构建与测试[J];情报杂志;2007年04期
16 黄绍龙;;基于语义网的信息检索[J];中国新技术新产品;2009年03期
17 曲佳彬;;网络信息检索中常用检索模型分析[J];产业与科技论坛;2010年03期
18 许锡春;基于相似性的检索模型[J];上海海运学院学报;2000年03期
19 李孝明;曹万华;;文本信息检索的精确匹配模型[J];计算机科学;2004年09期
20 陆伟;夏立新;;基于OKAPI的XML信息检索实现研究[J];中国图书馆学报;2006年04期
中国重要会议论文全文数据库 前10条
1 杨小锐;林磊;孙承杰;刘秉权;;基于结构挖掘的论坛检索模型[A];第六届全国信息检索学术会议论文集[C];2010年
2 沈水荣;;建立计算机知识点检索模型探索语义自动识别的相关问题——关于“人民金典”语义自动识别系列产品研发的理论思考[A];中国新闻技术工作者联合会2011年学术年会论文集(上篇)[C];2011年
3 毛军军;张铃;郑婷婷;吴涛;;基于商空间理论的商分形模型[A];第二十六届中国控制会议论文集[C];2007年
4 申展;王建会;吴爱华;胡运发;;互关联后继树模型——一种新颖的全文检索模型[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 朱治国;孙长嵩;;一个异构构件库群联合检索模型[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
6 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年
7 孙斌;吕学强;苏祺;;义项矩阵模型SMM简介[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 段震;赵姝;;基于商空间理论的车牌定位[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
9 梅放;林鸿飞;;基于社会化标签的移动音乐检索[A];第五届全国信息检索学术会议论文集[C];2009年
10 刘立人;;海量信息光子学:希望和问题[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
2 何富贵;商空间理论在网络路径分析中研究[D];安徽大学;2011年
3 刘瑰;面向海量信息处理领域的数据网格及其关键技术研究[D];解放军信息工程大学;2009年
4 陈万里;基于商空间理论和粗糙集理论的粒计算模型研究[D];安徽大学;2005年
5 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
6 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 张持健;商空间下模糊系统与模糊控制的问题求解[D];安徽大学;2005年
9 秦昆;基于形式概念分析的图像数据挖掘研究[D];武汉大学;2004年
10 赵姝;计算智能及其在气象信息分析中的应用[D];安徽大学;2007年
中国硕士学位论文全文数据库 前10条
1 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
2 田晋坤;基于本体术语关系的SBN检索模型扩展[D];河北大学;2011年
3 荆泉霖;模糊λ商空间研究及其应用[D];中南大学;2010年
4 王立政;基于本体的知识检索模型优化研究[D];吉林大学;2011年
5 邓现伦;基于模糊商空间理论的模糊聚类研究[D];中南大学;2011年
6 纪明奎;基于语义网的个性化信息检索模型研究[D];黑龙江大学;2007年
7 赵晓敏;基于商空间的聚类方法研究及其在CRM中的应用[D];华北电力大学(河北);2009年
8 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年
9 徐坤;基于关系数据库搜索引擎的研究[D];长春理工大学;2008年
10 曹立勇;基于本体的检索模型的研究[D];安徽大学;2010年
中国重要报纸全文数据库 前10条
1 记者 陈熹 实习生 杜瑞雪;海量信息服务基层百姓[N];湖北日报;2010年
2 ;智能处理海量信息[N];中国计算机报;2004年
3 陈静;推荐服务:第二代互联网的新盈利点[N];经济日报;2006年
4 本报特约撰稿 张旭中国科学技术馆 王二超;海量信息的物理基础[N];南方周末;2007年
5 记者 孙兆秋 刘建伟 通讯员 彭兵根 乌江滨;海量信息 不会筛选吃败仗 真假情报 善于甄别占先机[N];解放军报;2010年
6 陈里雅;海量信息将与市民见面[N];温州日报;2007年
7 雅梓;海量信息开辟在线数据挖掘服务蓝海[N];大众科技报;2008年
8 本报记者 宋黔云 杨春凌;我省为公众筑就海量信息新平台[N];贵州日报;2010年
9 本报记者 边歆;海量信息 轻松存储[N];网络世界;2008年
10 实习生:徐建华;看海量信息“潮起潮落”[N];科技日报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978