收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

百科知识与统计方法结合的查询意图分类

胡刚  
【摘要】:随着互联网上资源和服务的日益增多,人们常常需要借助于搜索引擎来查找相关信息。通用搜索引擎返回的结果包含了大量的杂质信息,用户通常还需要从中筛选符合自己查询意图的结果。垂直搜索引擎虽然能返回某一领域的精准答案,但是当用户具有多个查询意图时,需要提交到多个垂直搜索引擎才能得到较为全面的检索结果。如果通用搜索引擎能准确地分类用户的查询意图,进而有针对性的整合一个或多个垂直搜索引擎的结果,并且用不同的方式来展示,则能够提高用户的搜索满意度。 传统的意图分类方法通常基于统计机器学习,如果要获得较好的效果则需要大量的人工标注语料。本文通过引入百科知识,在无需大量人工标注的情况下从非统计和统计两个角度来解决意图分类问题。主要内容包括以下几个方面: 第一,本文分析了传统意图分类算法面临的几大难题,提出了一种基于百科知识的意图分类算法。算法将用户查询和意图类别分别映射到百科表示空间中,并在此表示空间中使用非统计方法来分类查询意图。最后通过与传统意图分类算法的对比实验来说明该方法的有效性和优越性。 第二,本文针对统计分类方法需要大量人工标注数据的局限性,利用每个意图类别的大规模种子词条来模拟真实的用户查询,并以此来训练统计分类器。在相同标注数据规模下,通过与用真实用户查询训练的分类器进行比较说明该方法的有效性。 第三,本文融合两种不同的意图分类方法的优点,组合为一个性能更优的意图分类器,并通过在相同数据集上的对比实验来说明融合后带来的优势。本文在传统搜索引擎的基础上,首先根据意图分类结果选择相应的垂直搜索引擎,然后根据意图相关性对搜索结果打分推荐,使搜索结果更符合用户的查询意图。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前8条
1 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
2 雷钰丽;李阳;王崇骏;刘红星;谢俊元;;基于权重的马尔可夫随机游走相似度度量的实体识别方法[J];河北师范大学学报(自然科学版);2010年01期
3 王继民,陈翀,彭波;大规模中文搜索引擎的用户日志分析[J];华南理工大学学报(自然科学版);2004年S1期
4 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
5 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
6 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
7 赵世奇,张宇,刘挺,陈毅恒,黄永光,李生;基于类别特征域的文本分类特征选择方法[J];中文信息学报;2005年06期
8 张森;王斌;;Web检索查询意图分类技术综述[J];中文信息学报;2008年04期
【共引文献】
中国期刊全文数据库 前10条
1 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
2 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
5 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
6 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
7 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
8 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
9 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
10 尚磊;刘风进;;基于支持向量机的手写体数字识别[J];兵工自动化;2007年03期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
6 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
7 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
8 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
4 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
5 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
6 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
7 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
8 刘建明;古代壁画图像保护与智能修复技术研究[D];浙江大学;2010年
9 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
10 李卓;图像信息隐藏与隐写分析算法的研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
6 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
7 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
8 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
9 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
10 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 张存刚,李明,陆德梅;社会网络分析——一种重要的社会学研究方法[J];甘肃社会科学;2004年02期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
3 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
4 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
5 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
6 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
7 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
8 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
9 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
10 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
【相似文献】
中国期刊全文数据库 前10条
1 文军,文贵华,丁月华;面向查询意图的搜索引擎设计与实现[J];计算机应用研究;2002年10期
2 周之诚;;用户查询意图的获取与采访质量优化[J];图书馆学研究;2009年12期
3 罗三定,冯元勇,沈德耀,贾维嘉;基于概念的文档评价模型[J];计算机工程;2002年08期
4 周之诚;;基于查询意图聚类的实时搜索建议[J];现代图书情报技术;2011年02期
5 吴晓晖;宋萍萍;张荣欣;;有无查询意图的分类与实现架构模型研究[J];情报科学;2009年12期
6 曾晓宁;蔺旭东;李密生;裴彩燕;薄静仪;;一种基于节点语义相关性的XML关键字查询算法[J];电脑知识与技术;2009年11期
7 温馨;陈群;娄颖;;基于词项扩展的XML信息检索反馈技术[J];计算机工程;2011年20期
8 张树东;陈燕;;个性化智能信息资源检索入口机制探讨[J];电视技术;2010年12期
9 任豪栋;贾年;;基于用户相似度计算的导航类意图分类研究[J];西华大学学报(自然科学版);2011年03期
10 王诚,张璟;基于语义的Web信息检索[J];计算机应用研究;2005年08期
中国重要会议论文全文数据库 前10条
1 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 华松;洪宇;张剑峰;姚建民;朱巧明;;基于相关子主题消解的悖向重排序方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 刘喜平;万常选;刘德喜;;有效的XML模糊内容与结构检索和计分[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 朱为总;文振焜;明仲;欧阳杰;;基于支持向量回归机的相关反馈图像检索算法[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
5 张志强;梁婷婷;谢晓芹;;一种基于用户标记的搜索结果排序算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 温馨;王鹏;李少亮;郭文琪;陈群;娄颖;;基于关键字的XML信息检索反馈技术的研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 黄静;陆嘉恒;孟小峰;;高效的XML关键字查询改写和结果生成技术[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
8 周荣贵;李凌伟;刘怡;;MBase中图文数据检索的反馈策略[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 何婷婷;许婷;瞿国忠;涂新辉;;基于主题词对的文档重排方法[A];第三届学生计算语言学研讨会论文集[C];2006年
10 靳岩钦;张敏;刘奕群;马少平;;搜索引擎用户查询的广告点击意图分析[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前1条
1 海磊;网络猪,你能改变世界吗[N];中国电脑教育报;2005年
中国博士学位论文全文数据库 前10条
1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
2 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
3 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
4 郑志诚;用户查询歧义性分析研究[D];清华大学;2013年
5 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
6 韦世奎;基于信息融合的多媒体内容搜索[D];北京交通大学;2010年
7 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
8 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
9 范举;关键词查询的推荐技术研究[D];清华大学;2012年
10 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年
中国硕士学位论文全文数据库 前10条
1 王井丰;基于百度百科的查询意图分类[D];吉林大学;2013年
2 胡刚;百科知识与统计方法结合的查询意图分类[D];哈尔滨工业大学;2011年
3 彭晴晴;面向查询意图的标签推荐技术研究[D];哈尔滨工程大学;2013年
4 陈杰;基于Web检索的查询意图分类研究[D];华南理工大学;2011年
5 张苗;基于用户查询意图的信息检索技术研究与实现方法[D];湖南大学;2013年
6 张培英;基于用户行为的用户查询意图分析方法及研究[D];西华大学;2011年
7 谢宇超;面向实体查询的开放式信息抽取技术研究[D];北方工业大学;2012年
8 邹佳奇;基于依存关系网络的查询扩展研究[D];北京邮电大学;2013年
9 叶泽锋;基于用户行为和语义扩展的中文商品查询分类方法研究[D];中山大学;2012年
10 代雄路;基于中文维基百科的信息检索技术研究[D];华中师范大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026