收藏本站
《国防科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向搜索引擎的自然语言处理关键技术研究

李莎莎  
【摘要】:随着网络技术的飞速发展,互联网上的信息资源越来越庞大,用户越来越难以准确快捷地获取所需信息,从而产生了所谓的信息焦虑。互联网搜索引擎以其基于关键词匹配的信息检索机制为用户在瞬间搜寻出所需的相关信息,成为缓解人们信息焦虑最为有效的工具。目前,搜索已成为互联网上的一种日常活动,并带来了巨大的商机。然而,面对网络上越来越多样化的信息,基于关键字查询的搜索引擎存在和凸显出如下主要的缺点:难以构造出准确表达用户需求的查询请求,返回结果冗余甚至无用信息多,查询主观性信息的性能低下。为了最大程度地满足用户需求,面向人性化、智能化、个性化的第三代搜索引擎技术应运而生,并得到了广泛关注。 近年来,随着搜索由基于关键字层面向基于知识层面转化,面向搜索引擎的自然语言处理技术逐渐成为新的研究热点,其研究的主要关注点在于:更好地理解用户的查询意图,更准确地推荐相关查询请求,返回更相关的查询结果,更好地筛选和组织查询结果等,力求提供更智能化、更人性化的人机交互,辅助用户更加便捷地找到想要的信息。本文在相关的查询推荐、查询意图识别、查询理解、重用问题答案库时的答案摘要等方面进行了深入而细致的研究。本文工作的主要贡献和创新点总结如下: 1.研究基于比较关系的查询推荐,并提出一种弱监督的从比较性问题中挖掘比较对象的方法 通常的查询推荐(Query Suggetion)都是推荐与用户初始查询请求相关的查询请求,例如,在用户搜索ipod touch时,搜索引擎推荐ipod touch break prison。然而,在不同的搜索场景下,用户所需要的相关查询是不同的。例如,在购买商品的产品搜索场景下,当用户搜索你Nikon d200时,用户往往想要了解该产品的相关信息,并将其与同类产品作比较,从而做出购买决策。这时,推荐Cannon 300d并提供两者之间的对比信息,将有利于用户尽快做出购买决策。当然, nokia d200 lens也是有用的推荐,然而相比之下,类似Cannon 300d的查询推荐,往往需要用户具有一定的知识储备,对同类产品有一定了解,这也往往是用户最为缺乏的知识,用户对此类推荐的需求更为迫切。由此可见,将用户初始查询请求的相关查询请求按其与初始查询请求的语义关系进行分类,根据搜索场景的不同给予不同类别的查询推荐,将使得搜索引擎更加个性化、智能化。由于比较备选方案是人们的日常决策行为中至关重要的一个步骤,本文针对用户比较行为这一搜索场景,提出基于用户查询请求的可比较对象的查询推荐。 由于用户比较行为的主观性和复杂性,判断两个对象的可比性是困难的。幸运的是,互联网上有网络用户产生的大量意图比较两个或多个对象的比较性问题,这些比较性问题提供了人们想比较什么的证据,例如Which to buy, iPod or iPhone?。在本文中,比较性问题中用于进行比较的对象被称为比较对象,例如上述例句中的iPod和iPhone。 为了从比较性问题中挖掘比较对象,本文首先需要识别一个问题是否是比较性问题。根据本文的定义,一个比较性问题必须是一个意在比较至少两个对象的问题。值得注意的是,包含两个对象的问题如果不包含比较的意图就不是比较性问题。但我们观察到:如果一个问题包含两个可比较对象,则该问题极有可能是比较性问题。本文利用这一点设计了一个弱监督的自举(bootstrapping)方法,可以在识别比较性问题的同时,抽取比较对象。 据我们所知,这是第一个意图通过推荐好的比较对象以支持网络用户的比较行为的研究。也是第一次提出使用网上的比较性问题作为媒介来反映用户真实关心的比较对象。本文提出的弱监督方法的F1-measure在比较性问题识别上达到82.5%,在比较对象抽取上达到83.3%,在从比较性问题识别到比较对象抽取的整体系统上达到76.8%。 2.利用对象之间的比较关系,提出一种基于图聚类的用户意图识别方法,并建立针对用户比较行为的比较搜索系统。 基于关键字查询的搜索引擎中,用户往往只能使用有限数量的词汇来抽象和概括他们的需求。在用户将其需求抽象成有限的查询关键字的过程中,部分有用信息被丢失,从而导致用户查询意图不慎清晰。目前,搜索引擎搜索的结果通常是满足用户各种查询意图的文档的合集,用户需要阅读大量相关文档才能获得自己确实所需的信息。因此,在对用户的查询请求进行搜索之前,尽可能确定用户的查询意图,并进行面向用户查询意图的搜索将有利于更准确地找到用户想要的信息。 如上所述,通常一个由一个或多个查询关键字组成的用户查询请求可能出于多种不同的意图。举个最经典的例子,当用户查询apple时,可能是查询一种水果,也可能是查询一种电子产品的品牌。而apple作为电子产品品牌时,用户可能想要查询apple的产品,也可能想要查询apple的网点分布。如果用户想要购买apple的产品,比如用户输入apple itouch ,有可能是想搜索产品介绍,有可能是想看不同网站的价格比较,还有可能是想看该产品与其它同类产品的比较。即使我们确定用户查询的意图是想要将apple itouch与其它产品相比较,用户还可能想比较产品的不同方面。比如,从产品升级的角度,用户可能想将其与ipod classic , iphone相比较;从娱乐功能性的角度,用户可能想将其与psp相比较等。可见,确切地理解用户的意图并不是件简单的任务。 本文主要关注用户的比较行为,针对用户的查询请求,利用与其可比较的对象之间的比较关系,提出一种基于图聚类的用户意图识别方法,每个可能的用户意图由一组用户查询请求的可比较对象表示。利用信息抽取的方法,本文给识别出的每个用户意图赋予一个语义标签。实验证明,本文提出的用户查询意图识别算法的准确率达到92.7%以上。另外,本文还建立了一个基于用户比较意图识别的比较搜索系统,该系统在识别用户查询请求的不同比较意图的同时,还提供了不同的比较意图下,用户查询请求与相应的可比较对象的比较信息。 3.研究面向开放域的查询理解,针对由多个查询关键词组成的复杂查询请求,提出一种无监督的基于查询模板的查询理解方法 在搜索引擎中,用户的查询请求除了单个实体或对象(如Obama)以外,还存在大量的由多个查询关键词组成的复杂查询请求,例如flight from Beijing to New York。这些查询多是面向任务的,并要求得到精确的答案(如0:00, Nov.19th, 2010 )。在现有的搜索引擎中,用户通常要进行如下操作:首先,检索相关网页或在线数据库;然后,通过逐一阅读相关网页或向相关的在线数据库提交数据库检索请求以寻找所需信息。为了简化这一繁琐的过程,研究者们提出了结构化检索。而查询理解是结构化检索的至关重要的一步。具体来说,本文所指的查询理解包括识别和消歧复杂查询中的查询关键字两个步骤。例如,给定查询harry potter showtime in beijing ,本文先识别查询词harry potter , showtime ,beijing (即查询关键字识别);然后分辨每个查询词的含义并分别标记,这里harry potter被标记为movie name , beijing被标记为city ,而showtime是电影的一个属性(即查询关键字词义消歧)。 本文主要关注如何在开放域的环境下理解用户的复杂查询请求:首先,利用现有技术自动创建一个语义词典;然后,尝试使用自动创建的语义词典进行开放域查询理解,即查询关键词识别与消歧。在本文的问题设定中,我们致力于解决以下两个问题: 1)自动创建的语义词典无论在语义标签还是词或词组实例中都包含很多噪音,这些噪音将严重降低查询理解的性能。 2)在开放域环境中,大量的语义标签是必需的。这使得以前用于处理有限数目的语义标签的基于序列标注技术的查询理解方法不再适用。 为了解决以上问题,本文提出一种基于查询模板的查询理解方法。该方法先利用一个无监督的互增强的算法挖掘查询模式;然后基于挖掘到的查询模式和语义词典进行查询关键字识别及消歧。据我们所知,本文的研究是第一个利用自动创建的语义词典进行查询理解的尝试。 4.研究社区问答服务的知识重用中答案完备性问题,提出了一种基于词的依赖层次的面向问题的答案摘要方法。 传统的搜索引擎在面对一些复杂问题的查询时,其查询结果往往差强人意,例如how to recover my doc file?或what is the best smart phone?。这些复杂问题通常需要人的经验或意见的参与,答案因人而异或因情况而异,没有唯一正确答案。而目前,社区问答服务的出现,为解决这一问题提供了新的资源。如何重用社区问答服务中积累的问题答案知识提高复杂问题查询的满意度成为该研究的一个研究热点。但是,目前的研究主要集中在评测社区问答服务积累的答案的准确性上,对于答案的完备性没有涉及。事实上,由于复杂问题的正确答案往往并不唯一,提供汇总了不同情况下不同个人的回答的完备答案对提高搜索满意度也是至关重要的。 本文尝试对一种特殊的问题——调研问题(survey questions)——进行答案摘要,以提高社区问答服务中可重用问题的答案的完备性。调研问题是指请求回答问题的用户推荐针对某种需求的最佳选择的问题。显然,对调研问题而言,答案的完整性至关重要,因为一方面不同的用户可能对不同的建议感兴趣,另一方面某个答案被推荐的次数也反映了该答案的值得推荐指数。 据我们所知,本文最先指出在社区问答服务的知识重用中答案完备性的重要性。同时,这也是第一个关注调研问题的研究,调研问题作为面向意见的问题中一种有趣的类型,问题的完整性对其而言至关重要。除此之外,本文推荐使用面向问题的答案摘要方式产生完整的答案。本文提出一种有效的建立词与词之间语义依赖性的层次结构的方法,并利用建立的层次结构进行面向问题的答案摘要,从而基于社区服务中用户提供的所有已有答案生成一个完整简洁的答案。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 胡杰;;文献检索课案例教学的失效性分析[J];大学图书情报学刊;2014年02期
中国硕士学位论文全文数据库 前2条
1 季岚石;基于搜索日志的查询推荐算法研究[D];吉林大学;2013年
2 刘熙;基于社会网络的产品推荐方法研究与实现[D];哈尔滨工程大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
4 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
5 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
6 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
7 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
8 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
9 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期
10 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
5 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
6 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
8 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
9 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
10 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
6 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
7 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
8 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
9 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
10 杨奕锦;Web页面用户评论信息抽取技术研究[D];浙江大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
3 罗敏;;案例教学在文献检索课程中的应用探讨[J];大学图书馆学报;2007年03期
4 翟海军;张刚;张瑾;;基于线性回归的相关查询推荐[J];高技术通讯;2010年06期
5 卢健;刁雅静;;Web日志挖掘中的数据预处理研究[J];江苏科技大学学报(自然科学版);2012年01期
6 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
7 李卫疆;赵铁军;王宪刚;;基于上下文的查询扩展[J];计算机研究与发展;2010年02期
8 高琳琦,李龙洙;基于顾客行为的产品推荐方法[J];计算机工程与应用;2005年03期
9 黄刚;李晋航;贾艳;;SWO:基于小世界效应的快速搜索算法[J];计算机科学;2011年07期
10 郭艳红;邓贵仕;;协同过滤系统项目冷启动的混合推荐算法[J];计算机工程;2008年23期
中国博士学位论文全文数据库 前4条
1 郁雪;基于协同过滤技术的推荐方法研究[D];天津大学;2009年
2 张磊;个性化推荐和搜索中若干关键问题的研究[D];北京邮电大学;2009年
3 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
4 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前7条
1 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
2 曹晓龙;个性化搜索引擎及其关键技术研究[D];江南大学;2012年
3 丁一;基于Web挖掘的个性化推荐服务研究[D];华中科技大学;2004年
4 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年
5 林颖;基于Web挖掘的信息推荐技术研究[D];扬州大学;2006年
6 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
7 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 张军;;新一代自然语言处理模式分析[J];中外科技信息;2001年11期
2 佘莉,符红光;基于自然语言处理的计算机几何作图[J];计算机应用;2005年01期
3 李蕾;周延泉;钟义信;;基于语用的自然语言处理研究与应用初探[J];智能系统学报;2006年02期
4 王玉锋;李东江;王志良;腾少东;吴笑天;陈亮;宋修雷;翟颖;;汉语自然语言处理一个系统方法[J];科技通报;2007年04期
5 孔晓风;李莹;李昊旻;吕旭东;;基于自然语言处理技术的消化科内窥镜检查报告的结构化[J];中国医疗器械杂志;2008年05期
6 殷杰;董佳蓉;;论自然语言处理的发展趋势[J];自然辩证法研究;2008年03期
7 ;《统计自然语言处理》由清华大学出版社出版[J];中文信息学报;2008年04期
8 杨欢;许威;赵克;陈余;;动词属性在自然语言处理当中的研究与应用[J];计算机技术与发展;2008年07期
9 梁娜;耿国华;周明全;;自然语言处理中的语义关系与句法模式互发现[J];计算机应用研究;2008年08期
10 丁杰;;基于文法规则匹配的自然语言处理系统研究与实现[J];电脑知识与技术;2009年04期
中国重要会议论文全文数据库 前10条
1 马颖华;苏贵洋;;基于概念的自然语言处理[A];第一届学生计算语言学研讨会论文集[C];2002年
2 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
4 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
8 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
2 IBM大数据专家 James Kobielus 范范 编译;机器能识别出讽刺含义吗?[N];网络世界;2014年
3 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
4 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
5 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
6 ;李葆嘉:语言科技新思维的倡导者[N];大众科技报;2008年
7 易水;IT新词集锦(420)[N];计算机世界;2004年
8 实习生 刑天鸽;机器人能听懂我们说话吗?[N];科技日报;2012年
9 ;从CRM到KRM[N];上海金融报;2002年
10 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
2 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
3 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
4 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
5 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
6 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
7 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
8 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
2 侯超;基于自然语言处理的策略生成系统的设计与实现[D];西安电子科技大学;2013年
3 张春燕;基于自然语言处理的文本分类分析与研究[D];江西理工大学;2011年
4 李力;利用知网进行(计算机)自然语言处理[D];电子科技大学;2004年
5 刘金凤;面向自然语言处理的汉语句子语义知识库构建研究[D];鲁东大学;2009年
6 李江;自然语言编程研究[D];北京邮电大学;2008年
7 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
8 周向根;企业经营范围自动分类及多语种经营范围术语自动获取[D];哈尔滨工业大学;2009年
9 张爱民;自然语言处理及其智能搜索引擎模型的设计研究[D];兰州理工大学;2003年
10 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026