收藏本站
《北方工业大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

面向实体查询的开放式信息抽取技术研究

谢宇超  
【摘要】:查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验现,现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。 为解决上述问题,本文采用开放式的知识库维基百科,并以此提出了一种新型的查询扩展系统。该方法通过抽取维基百科的部分结构化信息及自然文本信息,形成了以实体为骨架,以实体特征和实体关系为网络的层级语料库,基于此语料库完成相应的用户查询推荐系统,并进一步针对用户查询未被收录在维基百科时,设计辅助查询系统改进查询推荐效果。 本文主要创新点如下: 提出一种基于随机游走模型的查询意图识别算法RWM。该方法能够解决一些数据稀疏的问题,通过随机游走过程,对未直接关联的概念进行了扩展,从而有效的达到查询意图的识别。 提出一种共同利用维基百科的结构化知识和web知识的稀有查询分类算法WWRQ,该方法利用搜索引擎得到检索结果,通过从维基百科抽取的特征信息进行投票,得到查询分类。 实验结果表明:与传统的查询推荐系统相比,随机游走模型的查询意图识别算法能够同时兼顾准确率和召回率,显著提高查询精度。基于维基百科和web知识的稀有查询算法有效解决了针对简短查询无法准确定位的问题。
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 张海粟;马大明;邓智龙;;基于维基百科的语义知识库及其构建方法研究[J];计算机应用研究;2011年08期
2 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[J];中文信息学报;2011年02期
【共引文献】
中国期刊全文数据库 前10条
1 刘茂福;周斌;胡慧君;陈建勋;;问答系统中基于维基百科的问题扩展技术研究[J];工业控制计算机;2012年09期
2 张宜浩;金澎;孙锐;;基于改进k-means算法的中文词义归纳[J];计算机应用;2012年05期
3 邢富坤;;基于隶属度的命名实体自动获取研究[J];计算机应用与软件;2012年08期
4 张宜浩;金澎;;谓词自动识别中的特征选择度量研究[J];计算机工程与科学;2012年09期
5 钱程;阳小兰;;基于语义扩展的网页标签推荐系统[J];计算机工程与科学;2012年10期
6 陈晨;赵铁军;李生;杨沐昀;齐浩亮;;基于语言学知识的查询个性化潜力预测[J];中文信息学报;2012年06期
7 王静;何婷婷;衣马木艾山·阿布都力克木;;协同过滤在中文维基百科类别推荐上的应用[J];计算机应用;2013年03期
8 宋培彦;路青;赵星;;网络百科知识组织方法研究[J];情报资料工作;2012年05期
9 李德毅;张海粟;王树良;伍爵博;;维基百科统计分析研究[J];武汉大学学报(信息科学版);2012年02期
10 范云杰;刘怀亮;;基于维基百科的中文短文本分类研究[J];现代图书情报技术;2012年03期
中国硕士学位论文全文数据库 前7条
1 龚真平;基于web文献的数据挖掘研究应用[D];西南交通大学;2011年
2 王春玲;Wikipedia中认知冲突对协同知识创新的影响规律研究[D];大连理工大学;2012年
3 王芳;多特征融合的博客文章排序和分类算法研究[D];兰州理工大学;2012年
4 金凡;基于分众分类法和维基百科的移动应用语义知识库构建[D];武汉科技大学;2012年
5 金鑫;多媒体文档检索研究[D];西安电子科技大学;2012年
6 刘德志;城市火灾报警智能监控终端的研究与应用[D];广东工业大学;2013年
7 高飞;基于维基百科的汉语词语及短文本相关度计算方法研究[D];杭州电子科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前3条
1 李赟;黄开妍;任福继;钟义信;;维基百科的中文语义相关词获取及相关度分析计算[J];北京邮电大学学报;2009年03期
2 赵飞;周涛;张良;马鸣卉;刘金虎;余飞;查一龙;李睿琪;;维基百科研究综述[J];电子科技大学学报;2010年03期
3 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
中国博士学位论文全文数据库 前1条
1 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 魏常丽;刘玉玲;;搜索引擎结果去重Agent系统[J];内蒙古科技与经济;2006年03期
2 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
3 赵修文;刘伍颖;王挺;;基于本体的医疗信息搜索技术[J];计算机工程;2009年06期
4 毕蕾;沈洁;徐法艳;魏榴花;朱燕;孙荣霜;;领域本体指导的Web商品信息抽取[J];计算机工程与设计;2008年24期
5 汲业;陈燕;杨健;慕蓉;;生活服务领域垂直搜索引擎的设计与实现[J];计算机工程;2010年24期
6 陈鹏;刘烈宏;;深度web资源搜索关键技术[J];北京航空航天大学学报;2009年01期
7 游贵荣;陆玉昌;;基于统计和机器学习的中文Web网页正文内容抽取[J];福建商业高等专科学校学报;2009年02期
8 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
9 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
10 丁君军;郑彦宁;化柏林;;国内外属性抽取研究综述[J];情报科学;2011年05期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
3 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 陈沛;;搜索的未来[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 李昕;朱永盛 ;武港山;;论坛消息语义结构的提取与分析[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
9 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
10 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 朱伟;雅虎中国“变脸”搜索引擎[N];文汇报;2005年
8 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
9 商报记者  吴辰光;搜索引擎市场趋向细分化[N];北京现代商报;2006年
10 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
中国博士学位论文全文数据库 前10条
1 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
7 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
10 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 魏常丽;搜索引擎结果的再检索[D];内蒙古大学;2005年
6 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
7 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
8 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
9 刘金亮;汽车行业垂直搜索系统原型的设计与关键模块的实现[D];北京邮电大学;2008年
10 周锦姝;基于Web和信息抽取技术的自动术语翻译[D];天津大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026