收藏本站
《北京邮电大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于依存关系的用户意图的研究

段瑞雪  
【摘要】:随着互联网的发展,Web上出现了数以万亿的网页,这些网页中包含着大量的信息,每天还在不断的变化与更新,为了实现从整个互联网中快速查找目标信息,信息检索的典型应用系统——搜索引擎应运而生。但因为用户的查询词往往很短且具有很大的歧义性,如何理解用户意图仍然是一个有待解决的问题,并已经成为提高搜索引擎检索质量的关键性技术。用户意图的理解是相当复杂的问题,不同的查询具有不同的意图,即使是相同的查询,不同的用户也可能具有不同的意图。为了简化对用户意图问题的研究,目前主要采用查询分类的方法,把查询的意图划分到一个预先定义好的分类结构中。然而,目前存在的查询分类体系都是静态的,且存在很大的稀疏性,对于用户意图的理解很有限。本文以深入理解用户意图为目标,以依存分析为基础,在查询分类体系,意图的挖掘,以及进一步对意图聚类等方面进行了深入的研究,取得了一些创新性的成果,主要的研究工作和研究成果包括: 1)本文提出了动态的层次查询分类体系,并实现了用户意图的挖掘。为了简化对复杂用户意图的理解,目前多采用将用户查询进行分类的方法,搜索引擎可以根据不同类型的查询意图,采用不同的检索策略,优化检索结果。尽管近年来对用户查询分类的研究比较多,但是这些研究基本上都是基于简单的三分类体系,本文提出了一种细化的方法,分别为不同的查询词构建动态的层次分类体系。接着,从搜索引擎返回的检索片段入手,将检索片段看作是查询词的上下文,并利用依存分析的方法从查询上下文中挖掘用户可能的意图。但由于依存关系数量比较少,提出利用依存结构中的其他关系构造了间接的二阶依存关系,从而克服数据悉数问题。最后,实验表明,这种新的方法在准确率和相关率方面,都好于目前的其它方法。 2)本文提出了利用层次Dirichlet过程(Hierarchical Dirichlet Process)模型的方法来实现用户意图的聚类。目前,用户意图的研究仅仅停留在如何找到更好的特征来实现用户查询意图的分类。即使有些研究人员提出了挖掘用户意图的方法,但仅仅是对用户意图进行了简单的罗列,其中很多的用户意图具有相同或相似的含义,并没有实现对这些用户意图进行聚类。针对用户意图的聚类个数不能预先确定的特点,本文提出了利用HDP模型,从主题模型的角度来实现用户意图的聚类。文中将动词看作是文本,分别采用共现名词、依存名词以及两者相结合的方法来生成动词文本,根据动词文本中名词的潜在主题来实现动词的聚类。实验表明HDP和DPMM(Dirichlet Process Mixture Model)的性能要优于LDA (Latent Dirichlet Allocation)模型。这表明加入了文本层的HDP模型,更适合于解决意图聚类问题。 3)本文提出了利用短文本主题分类的方法来处理短文本构成的查询。当查询词不是由2,3个词构成,而是由短文本构成,查询的意图就明确得多,可以考虑直接利用主题分类的方法来对短文本查询进行分类。然而,短文本查询具有信息量少,结构不完整的特点,传统的单纯基于词的分类方法已经不能很好地解决短文本分类问题。本文提出了一种加入语法信息的方法,来增强句子中重要语法成分的词的重要性,从而增强短文本中包含的信息。实验结果表明语法信息的加入将有助于提高短文本分类的性能。通过判断短文本查询的主题类别,可以对不同主题的查询采取相应的排序策略,做到有针对性的处理查询。此外,还可以进一步进行垂直搜索。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张敏,罗振声;语料库与知识获取模型[J];中文信息学报;1994年01期
2 秦斌;;数字农业与精细农业[J];山西农业大学学报(自然科学版);2007年S2期
3 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期
4 刘伟权,王明会,钟义信;建立现代汉语依存关系的层次体系[J];中文信息学报;1996年02期
5 肖键;;品牌形象与各要素的相关性探讨[J];新闻界;2009年01期
6 周明,潘海华;基于变换的汉语句法功能标注探讨[J];中文信息学报;1997年04期
7 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
8 王立群;;依存关系正确理解的基础上的日中翻译[J];电脑知识与技术;2009年28期
9 汪红林;王红玲;周国栋;;基于依存关系的语义角色标注[J];计算机工程;2009年15期
10 罗三定,冯元勇,沈德耀,贾维嘉;基于概念的文档评价模型[J];计算机工程;2002年08期
中国重要会议论文全文数据库 前10条
1 汪红林;丁金涛;王红玲;周国栋;;基于依存关系的语义角色标注[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 王倩;何婷婷;闻彬;宋乐;张茂元;;基于依存关系的中文情感要素抽取技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 傅爱平;;广义依存关系和汉语自动分析[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 马金山;刘挺;李生;;面向句法分析的句子片段识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 赵怿怡;关润池;;汉语依存树库的构建[A];第三届学生计算语言学研讨会论文集[C];2006年
6 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 周惠巍;黄德根;高洁;杨元生;;最大生成树算法和Nivre算法相结合的中文依存关系解析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 姜晓辉;;社科引文数据库与社科核心期刊的依存关系[A];全国核心期刊与期刊国际化、网络化研讨会文集[C];2003年
10 李鑫;杜永萍;黄萱菁;吴立德;;基于句法信息和语义信息的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 黄彩燕 实习记者 苏静雯;中日经济依存关系显著[N];亚太经济时报;2007年
2 江瑞平;中日经济依存关系“易位”[N];人民日报;2004年
3 路向军(作者单位:天津市委党校);高技术产业对传统产业的依存关系[N];科技日报;2000年
4 本报记者 张霞;马振骋:生活无“译本”[N];21世纪经济报道;2007年
5 ;换个角度看问题 中国人比美国人更擅长[N];中国社会报;2007年
6 金科;中德两国学者共同研讨市场经济[N];中国社会科学院院报;2007年
7 ;苏霍姆林斯基的著作影响了中国几代教育者[N];中国教育报;2006年
8 侯欣一;法治与和谐社会的构建[N];光明日报;2006年
9 张雨竹记者 胡晓波;全市今年草原工作目标确定[N];齐齐哈尔日报;2008年
10 屈永华;对QoS和SLM有误解[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 彭艳;短语结构语法与依存语法的心理现实性研究[D];上海外国语大学;2007年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
6 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
7 王旭川;中国小说续书的历史发展[D];上海师范大学;2004年
8 李鑫;问题回答系统中的问题分类研究[D];复旦大学;2007年
9 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
10 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年
中国硕士学位论文全文数据库 前10条
1 胡刚;百科知识与统计方法结合的查询意图分类[D];哈尔滨工业大学;2011年
2 陈杰;基于Web检索的查询意图分类研究[D];华南理工大学;2011年
3 高洁;多分类器系统在日语依存关系解析中的研究[D];大连理工大学;2011年
4 张培英;基于用户行为的用户查询意图分析方法及研究[D];西华大学;2011年
5 金泉;日语长句子的句法分析[D];大连理工大学;2004年
6 谢宇超;面向实体查询的开放式信息抽取技术研究[D];北方工业大学;2012年
7 尹鹏;基于SVM的中文组块间依存关系分析[D];大连理工大学;2006年
8 王倩;我国股票市场与货币政策依存关系的再检验[D];东北财经大学;2007年
9 李晓丹;限定领域内基于web的智能问答系统[D];内蒙古大学;2005年
10 麻伟亮;中俄两国经贸的依存关系[D];厦门大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026