收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于FCA的信息检索模型研究及应用

许研  
【摘要】: 在Internet上使用搜索引擎检索信息己成为人们获取信息的重要手段,然而,这并不表明目前的信息检索技术已经让人们满意。目前大部分中文搜索引擎的查询技术基本上都是基于关键词匹配的,在这里“关键字”仅仅是出现在网页中的符号而已,它所指代的语义并没有被使用。页面分析所依据的也是存在于页面之间的链接关系,它不能表示这些页面本身包含什么信息,这就决定了搜索引擎还不能很好地处理页面信息的语义。因此,如何表达信息需求,如何展示/浏览搜索结构,如何对个性化的信息需求建立模型等等,是未来搜索引擎应该追求的方向,基于概念的智能检索才符合信息检索的需求。 形式概念分析(Formal Concept Analysis,以下简称FCA)的主要内容是研究“概念”和“概念分层”的数学化描述,其主要思想是:从被表示为形式背景(formal context)的数据中获取形式概念(formal concept)以及形式概念之间的联系,形成一种以形式概念为元素的格结构——概念格(concept lattice)。使用FCA从数据中获取概念与其它基于统计的传统数据分析方法不同,FCA用概念表示数据分析的结果,用概念格显示知识视图。 如何将FCA对概念的数学描述应用在信息检索中,尤其是如何为FCA搜索引擎( Search Engine)建立基于形式背景的信息检索模型(Information Retrieval Model,以下简称IR模型),这是本文工作的中心任务。 本文结合形式背景定义建立IR模型,我们定义文档集为形式背景的对象集,属性集是能够代表文档特征的关键词集合的子集。从这样的形式背景中抽取出文档集与关键词之间,以及文档与文档之间在概念层次上的关系,用概念格体现形式概念之间的关系。在搜索引擎中可以在概念格的视图上对用户进行导航。由于对象集中的文档是动态添加的,而属性集也将对应的做出调整,所以我们用Godin造格算法造格。形式背景的对象集合和属性集合的确立决定了概念格的结构,并将直接影响用户在格上浏览的效率和FCASE系统的查全率和查准率。因此,如何建立形式背景,即如何为FCASE系统建立IR模型是整个系统中最关键的一步。尤其是属性集的选择,决定了搜索引擎的性能。本文提出了基于形式背景的IR模型并进一步提出了“属性抽取算法”。 属性抽取算法的基本思想为:对文档进行分词处理,统计每个词的词频,计算其tf*idf值,根据权值调整规则,计算权重weight值,最后选择合适的阈值λ限定属性个数,构造形式背景,建立IR模型。 实验证明属性抽取算法提炼出形式背景,构造基于FCA的IR模型的可行性。FCA-IR模型的优越性体现在对数据源的组织方面,反映出文档之间潜在的聚类关系。结合形式背景的约简等手段,该模型为用户提供了一种有实用价值的基于概念格对文档进行聚类和浏览的方法。基于FCA的IR模型的实用价值和性能在基FCA的搜索引擎(FCA SE)系统中得到了验证。 本文的主要贡献如下: (1)提出了基于FCA的检索模型,并通过实验验证了该模型的可行性和正确性。 (2)提出了基于文本为对象和关键词为属性的背景关系,实现形式背景中对象集和属性集的抽取。 (3)根据特征项优化选择思想,实现了形式背景的属性抽取算法。 (4)FCASE系统的成功运行验证了FCA模型的的可行性,也验证了FCA模型的实用性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高峰;何伟;;基于形式概念分析和本体的搜索引擎设计思考[J];中央民族大学学报(自然科学版);2009年S1期
2 陈庆燕;崔娟;;概念格构造算法实验对比分析[J];科技资讯;2010年30期
3 韩道军;张磊;沈夏炯;周珂;;形式背景提取初探[J];河南大学学报(自然科学版);2007年05期
4 曲开社;田永生;翟岩慧;梁吉业;;形式背景的BAM神经网络模型及模型上的概念生成[J];计算机科学;2009年10期
5 龚卫明;马垣;;基于最大模的概念格属性约简算法[J];计算机工程与设计;2009年24期
6 沈夏炯;贾培艳;刘宗田;;形式背景同构判定的等价类算法[J];计算机科学;2006年12期
7 刘树鹏;李冠宇;;基于形式概念分析的本体合并方法[J];计算机工程与设计;2011年04期
8 唐娟;杜亚军;王可亮;;一种基于形式概念分析的问答系统答案抽取的研究[J];计算机应用;2007年03期
9 许研;沈夏炯;刘宗田;;基于FCA的搜索引擎的信息检索模型及其实现(英文)[J];南昌工程学院学报;2007年01期
10 蒋平;;基于Eclipse的概念格构建系统的设计与实现[J];计算机技术与发展;2011年04期
11 苗茹;沈夏炯;;概念格经典算法对比[J];福建电脑;2007年03期
12 蒋平;任胜兵;林鹃;;形式概念分析在软件工程中的应用[J];计算机技术与发展;2008年04期
13 王芳;马骏;陈明;;基于FCA的产品特征信息分类[J];计算机工程;2008年16期
14 郑珂;李涵;;基于形式概念分析的本体构建方法研究[J];福建电脑;2011年02期
15 苗茹;沈夏炯;;概念格中的规则提取[J];光盘技术;2006年01期
16 郭慧慧;陈俊杰;赵涓涓;;基于FCA的对象与属性交叉渐进的情感本体学习[J];电脑开发与应用;2010年02期
17 张瑞玲;白桂梅;徐红升;沈夏炯;;基于FCA的本体的构建与合并[J];微电子学与计算机;2008年07期
18 陈小莉;;基于形式概念分析构建本体的方法研究[J];科技信息;2009年05期
19 金梁;;基于属性涵盖的概念格构造算法[J];襄樊职业技术学院学报;2011年01期
20 柴玉梅;杨冉;王黎明;;基于快速形式概念集构造的分类规则挖掘算法[J];烟台大学学报(自然科学与工程版);2009年03期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 谢艳;马垣;张虹云;;一个快速建造概念格的算法[A];2001年中国智能自动化会议论文集(下册)[C];2001年
6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
2 智慧来;概念格构造与应用中的关键技术研究[D];上海大学;2010年
3 滕广青;基于概念格的数字图书馆知识组织研究[D];吉林大学;2012年
4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
5 师智斌;高性能数据立方体及其语义研究[D];北京交通大学;2010年
6 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
7 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
8 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
10 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 许研;基于FCA的信息检索模型研究及应用[D];河南大学;2007年
2 李新春;基于WordNet的概念格语义匹配算法及其在搜索引擎上的应用[D];西华大学;2008年
3 王倩;基于概念格的个性化搜索引擎查询扩展研究[D];北京邮电大学;2008年
4 张柯;基于概念格的语义相关度计算及应用[D];河南大学;2007年
5 贾培艳;形式背景同构判定算法研究及其应用[D];河南大学;2006年
6 张云中;基于形式概念分析的领域本体构建方法研究[D];吉林大学;2009年
7 李艳霞;基于概念格的K-Means算法研究及应用[D];大连海事大学;2010年
8 刘树鹏;基于概念格的本体合并方法与技术的研究[D];大连海事大学;2010年
9 王培培;基于区别度概念格的关联规则挖掘算法设计[D];河南大学;2010年
10 王彬弟;基于关联格的概念格约简理论与方法[D];西北大学;2011年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978