收藏本站
《西华大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于WordNet的概念格语义匹配算法及其在搜索引擎上的应用

李新春  
【摘要】: 近年来,随着互联网用户数量的增加,网上信息迅速膨胀,搜索引擎成为了人们获取新知识的重要手段。然而传统的搜索引擎查询系统大多是基于关键字匹配的,所以在进行搜索时会带来一些问题,比如查询返回信息过多或者不容易找到与查询相关的信息等等。智能化是未来搜索引擎应该追求的方向,这主要表现在两个方面:一是对搜索请求的理解,二是对网页内容的分析。基于概念的智能检索才符合信息检索未来的需求。形式概念分析(Formal Concept Analysis,以下简称FCA)的主要内容是研究“概念”和“概念分层”的数学化描述,其主要思想是:从被表示为形式背景(Formal Context)的数据中获取形式概念(Formal Concept)以及形式概念之间的联系,形成一种以形式概念为元素的格结构——概念格(Concept Lattice)。随着概念格应用的不断深入,概念格之间的匹配研究也越来越重要。 本文首先提出了基于概念格的搜索引擎匹配模型,即将自然语言的用户查询与网页文档分别构建概念格,然后进行匹配。在进行概念格匹配时,本文提出了一种基于WordNet的概念格语义匹配算法。目前搜索引擎的智能化表现在对自然语言的语义分析和内容信息的理解,这离不开语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的物质前提。在众多的语义知识库中,WordNet体系简洁、内容详实,已经成为自然语言处理领域最重要的公用语义资源和语义知识库事实上的国际标准。我们用WordNet来计算词汇语义间复杂的难以把握的语义关系,构造出相似图,然后通过计算节点与节点之间的相似度,节点与概念格之间的相似度,最后得到概念格与概念格之间的相似度。 本文还研究了概念格的语义匹配算法在网络爬虫的智能爬行方向的选择方面的重要作用。包括了种子URL的选择,网页的解析与获取,索引库的建立,网页中属性的抽取,造格算法以及概念格语义匹配等多个方面。 实验证明在基于FCA的搜索引擎模型中,基于WordNet的概念格语义匹配算法的可行性。FCA的搜索引擎模型的优越性体现在对数据源的有效组织方面,反映出文档之间或者文档中事物之间潜在的语义关系。同时,概念格的语义匹配算法的实用价值和性能也在实验中得到了验证。
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 郭海凤;;FAC算法在图像检索中的应用[J];计算机工程;2012年12期
中国硕士学位论文全文数据库 前1条
1 陈鹏飞;基于个性化本体的语义搜索引擎技术的研究与设计[D];河北工业大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 李爱红;试论自动摘要技术[J];图书情报工作;2000年04期
中国博士学位论文全文数据库 前3条
1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
2 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
3 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
【共引文献】
中国期刊全文数据库 前10条
1 齐波;王成良;;现代汉语短语的机器识别[J];重庆工学院学报(自然科学版);2007年12期
2 史红霞;欧阳毅;凌云;;基于本体的商务语义信息检索算法研究[J];管理工程学报;2007年03期
3 霍林;王力;黄俊文;潘英花;;一种结合同义词典和词对共现距离的查询扩展方法[J];广西大学学报(自然科学版);2010年02期
4 刘炜;陈俊杰;;元搜索引擎中的推理技术[J];广西师范大学学报(自然科学版);2007年04期
5 谢春芝;杜亚军;;基于进化论观点的概念格构建算法[J];广西师范大学学报(自然科学版);2010年01期
6 占飞;刘挺;;面向英文辅助写作的词语相似度应用研究[J];智能计算机与应用;2011年03期
7 吴小川;吐尔根·依布拉音;艾山·吾买尔;谭勋;;汉维哈柯双语平行语料库加工处理系统的设计与实现[J];电脑知识与技术;2011年27期
8 谭勋;吐尔根·依布拉音;艾山·吾买尔;艾山·毛力尼亚孜;;汉维哈柯双语语料库加工系统句子对齐技术的研究[J];电脑知识与技术;2011年28期
9 艾山·毛力尼亚孜;谭勋;吐尔根·依布拉音;艾山·吾买尔;;汉维哈柯双语语料库加工系统词对齐技术的研究[J];电脑知识与技术;2011年28期
10 袁晓峰;;基于《知网》的词语相似度计算研究[J];成都大学学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 ;THE ECOMMERCE INFORMATION MODEL DRIVEN SEMANTIC SEARCHING ALGORITHM[A];Proceedings of 2006 International Symposium on Distributed Computing and Applications to Business, Engineering and Science[C];2006年
2 ;K-harmonic Means Data Clustering with Particle Swarm Optimization[A];Proceedings of 2008 International Symposium on Distributed Computing and Applications for Business Engineering and Science Volume Ⅰ[C];2008年
3 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
4 张素兰;张继福;;融合粗集和概念格理论的分类知识挖掘模型研究[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
5 高建忠;;汉语动宾搭配的自动识别研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 鲁松;白硕;;词距离的计算方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 朱莉;孟遥;赵铁军;李生;;英语句子边界的识别[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 董强;董振东;;基于知网的相关概念场的构建[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 杨建;杨沐昀;于浩;时晓升;;面向译文质量的EBMT系统实例库优化研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 罗智勇;宋柔;;相似词及其在计算机辅助校对系统中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
2 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年
3 秦昆;基于形式概念分析的图像数据挖掘研究[D];武汉大学;2004年
4 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
5 张守志;Rough集中若干问题的研究[D];复旦大学;2004年
6 王喆;商务数据中的关联和聚类算法研究[D];吉林大学;2005年
7 李云;概念格分布处理及其框架下的知识发现研究[D];上海大学;2005年
8 付相君;基于本体和Semantic Web技术的产品知识集成基础研究[D];浙江大学;2005年
9 沈夏炯;概念格同构生成方法研究及IsoFCA系统实现[D];上海大学;2006年
10 叶施仁;海量数据约简与分类研究[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 刘金盼;新闻语料库中基于概念网络的词语相关度计算[D];华东师范大学;2011年
4 高建忠;汉语动宾搭配的自动识别研究[D];北京语言文化大学;2000年
5 王春霞;基于语料库的离合词研究[D];北京语言文化大学;2001年
6 赵文兵;基于概念格及其扩展模型的数据挖掘研究[D];合肥工业大学;2002年
7 张卿;基于分布式概念格模型的数据挖掘研究[D];合肥工业大学;2002年
8 韩莉;基于概念格的Web使用日志挖掘及其在个人化技术中的应用[D];安徽大学;2003年
9 陈先;智能搜索引擎关键技术研究与实现[D];哈尔滨工程大学;2003年
10 谷雨;基于粗糙集和概念格的入侵检测研究[D];云南师范大学;2003年
【同被引文献】
中国期刊全文数据库 前8条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 侯冕,廖乐健;基于语义Web本体语言的推理机引擎的实现[J];军民两用技术与产品;2005年07期
3 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
4 吕英杰;叶强;李一军;;模糊综合评判理论在网页自动分类中的应用[J];计算机工程;2007年15期
5 王梅;周向东;张军旗;许红涛;施伯乐;;基于扩展生成语言模型的图像自动标注方法[J];软件学报;2008年09期
6 易丽萍,竹勇 ,雷小春;知网在词语相似度计算方面的应用[J];信息技术与信息化;2005年01期
7 邹木春;;基于交互式遗传算法和粗糙集的图像检索方法[J];计算机工程与设计;2007年09期
8 刘炜;李大玲;夏翠娟;;元数据与知识本体[J];图书馆杂志;2004年06期
中国博士学位论文全文数据库 前2条
1 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前8条
1 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
2 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
3 郑任儿;基于本体的语义检索技术研究[D];华东师范大学;2007年
4 罗昊;一种基于RDF的本体转换技术的研究与实现[D];湖南大学;2007年
5 李丽;基于本体的网页文本分类的研究[D];北京交通大学;2008年
6 谭春亮;基于本体的Deep Web语义搜索引擎[D];广西师范大学;2008年
7 张建梁;基于云计算的语义搜索引擎研究[D];复旦大学;2009年
8 县小平;搜索引擎PageRank算法研究[D];西北大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 何学锋,彭超群,张曾荣;科技期刊7项重要计量指标间的相互关系[J];编辑学报;2003年06期
2 王红梅,朱洪秀,王凌;对中文搜索引擎未来发展的探讨[J];东北电力学院学报;2001年04期
3 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
4 管惠维;基于Transputer的逻辑程序解释器的设计与实现[J];计算机研究与发展;1995年02期
5 丁承,邵志清;集中式搜索引擎的设计与开发[J];计算机工程;2002年02期
6 肖诗源,叶俊,刘贤德;一种基于Agent的分布式搜索引擎[J];计算机工程;2002年07期
7 徐俊萍,翟玉庆;基于Agent的个性化信息服务技术的研究[J];计算机工程与科学;2002年03期
8 张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期
9 陈志忠,陈肇雄,高庆狮;通用的自然语言词法分析机制[J];计算机学报;1991年02期
10 孙茂松,左正平,邹嘉彦;基于k-近似的汉语词类自动判定[J];计算机学报;2000年02期
【相似文献】
中国期刊全文数据库 前10条
1 高峰;何伟;;基于形式概念分析和本体的搜索引擎设计思考[J];中央民族大学学报(自然科学版);2009年S1期
2 唐娟;杜亚军;王可亮;;一种基于形式概念分析的问答系统答案抽取的研究[J];计算机应用;2007年03期
3 许研;沈夏炯;刘宗田;;基于FCA的搜索引擎的信息检索模型及其实现(英文)[J];南昌工程学院学报;2007年01期
4 蒋平;;基于Eclipse的概念格构建系统的设计与实现[J];计算机技术与发展;2011年04期
5 苗茹;沈夏炯;;概念格经典算法对比[J];福建电脑;2007年03期
6 蒋平;任胜兵;林鹃;;形式概念分析在软件工程中的应用[J];计算机技术与发展;2008年04期
7 郑珂;李涵;;基于形式概念分析的本体构建方法研究[J];福建电脑;2011年02期
8 苗茹;沈夏炯;;概念格中的规则提取[J];光盘技术;2006年01期
9 王芳;马骏;陈明;;基于FCA的产品特征信息分类[J];计算机工程;2008年16期
10 郭慧慧;陈俊杰;赵涓涓;;基于FCA的对象与属性交叉渐进的情感本体学习[J];电脑开发与应用;2010年02期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
2 滕广青;基于概念格的数字图书馆知识组织研究[D];吉林大学;2012年
3 智慧来;概念格构造与应用中的关键技术研究[D];上海大学;2010年
4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
6 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
7 师智斌;高性能数据立方体及其语义研究[D];北京交通大学;2010年
8 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
9 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
10 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 李新春;基于WordNet的概念格语义匹配算法及其在搜索引擎上的应用[D];西华大学;2008年
2 许研;基于FCA的信息检索模型研究及应用[D];河南大学;2007年
3 王倩;基于概念格的个性化搜索引擎查询扩展研究[D];北京邮电大学;2008年
4 张柯;基于概念格的语义相关度计算及应用[D];河南大学;2007年
5 张云中;基于形式概念分析的领域本体构建方法研究[D];吉林大学;2009年
6 李艳霞;基于概念格的K-Means算法研究及应用[D];大连海事大学;2010年
7 刘树鹏;基于概念格的本体合并方法与技术的研究[D];大连海事大学;2010年
8 王培培;基于区别度概念格的关联规则挖掘算法设计[D];河南大学;2010年
9 王彬弟;基于关联格的概念格约简理论与方法[D];西北大学;2011年
10 王德兴;基于量化概念格的关联规则挖掘模型研究[D];合肥工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026