收藏本站
《中国科学技术大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向Web信息检索的知识挖掘

翟海军  
【摘要】: 随着互联网络的快速发展,搜索引擎成为人们获取日常所需信息的重要工具。目前主流的信息检索系统以传统的关键词匹配技术作为核心,该技术在一定程度上满足了用户的信息需求。但是用户查询通常都很简短,不具备严格语法而且富于歧义,这些给当前的信息检索技术带来了极大挑战。因此,如何通过从互联网络数据中挖掘知识来改善Web信息检索的性能以及构建Web信息检索相关服务,更好地为互联网络用户提供服务成为当前的一个研究热点。 本文以提高Web信息检索的性能和构建Web信息检索相关服务为背景,基于用户查询日志和Web两类大规模互联网络数据开展了知识挖掘研究,其中包括基于用户查询日志的查询分类、基于用户日志的命名实体挖掘和基于Web的实体关系挖掘: 1.基于用户查询日志的查询分类 我们首先开展了基于用户查询日志的查询分类的研究。该研究针对用户查询特征少和多话题的特性,提出了一个基于修正关联话题模型的分类框架,该框架通过中间分类体系和概率模型来获取用户查询和目标分类体系之间的关系,此外该框架中还通过语义扩展的方法来丰富用户查询和目标类别的语义信息。在KDDCUP 2005评测数据集上的实验表明,我们提出的基于修正关联话题模型的概率分类框架显著地优于其它参评方法,具有更加优越的查询分类性能。 2.基于用户查询日志的命名实体挖掘 我们进一步研究了针对大规模用户查询日志中丰富的命名实体的挖掘技术。用户查询通常都很简短(往往只有2-3个词),并且不具备严格的语法,语义很模糊,因此文本领域中的命名实体挖掘技术不能直接有效地应用到查询上。这给基于用户查询的命名实体挖掘的研究工作提出了新的挑战。我们分别尝试采用弱监督的学习方法和监督的学习方法来从查询日志中进行命名实体挖掘,这两个方法分别从不同的角度来形式化查询日志中命名实体挖掘所面临的问题。在大规模实际用户查询日志数据集上的实验表明,我们提出的基于修正关联话题模型的命名实体挖掘框架和基于转移学习的命名实体挖掘框架都显著地优于其它参评方法,具有更加优越的命名实体挖掘性能。 3.基于Web的实体关系挖掘 区别于传统文本领域中的实体关系抽取,我们这里的实体关系挖掘所关注的是TREC 2009提出一个关联实体查找评测任务。关联实体查找任务的目标是根据用户提交的查询在Web数据集中找到与查询相关联的目标实体返回给用户。该任务是为了解决用户通常的实体查找需求而提出的,但并没有像传统的Ad Hoc文本检索任务那样有很好的形式化建模。该任务的关键是如何构建能高效处理大规模语料的检索框架,以及如何构建实体间的关系模型。我们提出了一个基于概率模型的实体查找框架,该框架通过概率的方法建模实体间的关系来进行实体排序。在TREC 2009关联实体查找任务数据集上的评测结果显示,基于概率模型的实体查找框架具有非常优越的性能。 面向Web信息检索的知识挖掘的研究近年来才刚刚兴起,本文的研究工作对推动这个研究方向的发展起到了重要的作用。同时基于知识挖掘来改善信息检索的性能和构建信息检索相关服务还需进一步研究。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 马仲兵;;基于关联规则的高校图书馆个性化推荐模型[J];新世纪图书馆;2013年07期
【参考文献】
中国期刊全文数据库 前9条
1 王继民,陈翀,彭波;大规模中文搜索引擎的用户日志分析[J];华南理工大学学报(自然科学版);2004年S1期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
3 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
4 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
5 窦志成;袁晓洁;何松柏;;大规模中文搜索日志中查询重复性分析[J];计算机工程;2008年21期
6 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
7 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[J];中文信息学报;2010年01期
8 游斓,周雅倩,黄萱菁,吴立德;基于最大熵模型的QA系统置信度评分算法[J];软件学报;2005年08期
9 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期
中国重要会议论文全文数据库 前1条
1 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前2条
1 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
2 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前1条
1 徐芬;基于SVM和TSVM的中文实体关系抽取[D];国防科学技术大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 满鹏;;海量文档信息的高效检索算法[J];长春大学学报;2008年02期
3 黄晨晖;;面向应用加速的两阶段数据压缩流程[J];电脑开发与应用;2010年09期
4 苏林忠;;两种学习算法在算术关系抽取中的应用比较[J];电脑知识与技术;2010年19期
5 杨武;唐蓉;任丽芸;;重复网页检测算法综述[J];电脑知识与技术;2010年22期
6 程军,刘斌中;数字图书馆海量文本全文检索系统[J];大学图书馆学报;2002年05期
7 李维刚;刘挺;李生;;基于网络挖掘的实体关系元组自动获取[J];电子学报;2007年11期
8 张志昌;张宇;刘挺;李生;;开放域问答技术研究进展[J];电子学报;2009年05期
9 范士喜;王晓龙;王轩;张耀允;;面向真实环境的问句分析方法[J];电子学报;2010年05期
10 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
中国重要会议论文全文数据库 前10条
1 王继民;彭波;孟涛;;基于搜索引擎日志发现相近Web查询[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 王墨君;齐欧;;搜索引擎中基于磁性隐喻的图形化界面交互方式[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 钟茂生;刘慧;刘磊;;词汇间语义相关关系量化计算方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 虞欢欢;陈九昌;钱龙华;周国栋;;基于树核函数的中文语义关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
2 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
3 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
4 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
5 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
8 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
10 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年
2 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
3 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
4 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
5 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
6 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年
7 沈益舒;搜索语句的时间属性研究及其在检索排序中的应用[D];浙江大学;2011年
8 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年
9 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
10 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
【同被引文献】
中国期刊全文数据库 前2条
1 刘斌;;关联挖掘在高校图书馆借阅数据分析中的应用[J];蚌埠学院学报;2012年04期
2 陈力;李林;秦臻;;关联规则在提高图书馆服务质量中的应用[J];情报杂志;2008年02期
【二级参考文献】
中国期刊全文数据库 前10条
1 王继民,陈翀,彭波;大规模中文搜索引擎的用户日志分析[J];华南理工大学学报(自然科学版);2004年S1期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
3 赵晓芳,刘欣,徐志伟;网络交通自相似特性的分析及应用——具有单一登录点的机群网络服务器的性能评测[J];计算机研究与发展;1999年09期
4 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
7 王继民;龚笔宏;孟涛;;多任务中文Web查询分析[J];计算机工程;2006年14期
8 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
9 邓擘;樊孝忠;杨立公;;用语义模式提取实体关系的方法[J];计算机工程;2007年10期
10 王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯;基于Rough Set理论的“数据浓缩”[J];计算机学报;1998年05期
中国重要会议论文全文数据库 前1条
1 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前1条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 肖燕;20世纪我国信息检索研究的历史回顾[J];图书馆学研究;1999年06期
2 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
3 李慧敏,方敏,张雪梅;高校信息检索教育课教学改革构想[J];山东图书馆季刊;2001年02期
4 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
5 罗映红;基于网络的信息检索与信息检索能力的培养[J];高校图书馆工作;2004年02期
6 李其港;对高职信息检索课程教学改革的构思[J];职教论坛;2004年23期
7 李宙星;;浅析互联网信息超载[J];中国西部科技;2004年16期
8 陈璐;;亚马逊网络书店的信息检索[J];图书馆研究与工作;2004年04期
9 赖俊;周琳;张学平;;基于Web挖掘的主题式搜索引擎的设计[J];军事通信技术;2004年03期
10 王雅戈;Openfind搜索引擎功能解析[J];江西图书馆学刊;2005年02期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 汪志鹏;私有信息检索技术研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
2 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
3 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
4 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
5 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
6 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
9 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
10 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026