收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于用户查询日志的中文互联网问句自动生成和查询压缩研究

李超  
【摘要】:随着互联网用户和规模爆炸式增长,如何让用户更快捷的搜索到需要的信息成了学术界和搜索引擎公司共同关注的问题。搜索引擎上用户查询的形式是多种多样的,如何正确的分析查询是理解用户意图、帮助用户得到信息的关键,有广泛的应用前景和重要的地位,是目前研究的热点。 用户查询日志记录着所有搜索引擎用户的查询和点击行为,是分析用户行为、改进搜索结果最有效的数据资源。本文应用中文搜索引擎的查询日志,重点研究了基于查询日志的问句自动生成和查询压缩方法,主要内容如下:第一,基于互动类问答知识库的中文查询问句自动生成。互动类问答知 识库的出现为用户提供了获得高质量知识的途径,用户可以在上面提问、回答和评价他人对问题的答案。为改进互动类问答知识库的搜索并扩大其问题的数量,我们提出了一种问句自动生成的方法,该方法从用户查询日志中挖取问句模版,建立查询到模板的评分机制,当查询到来时找到与之最相关的模板,并将该查询嵌入模板中。实验结果显示我们的方法的1-best准确率为67%,比互动类问答知识库百度知道的搜索算法效果更好。 第二,基于用户查询日志中文查询压缩。互联网搜索引擎的查询有越来越长的趋势,并且长查询由于含有冗余信息搜索结果相对不佳,为此我们研究长查询压缩技术。将长查询分词,利用有监督机器学习的方法以词为单位判断这个词是否为查询中的关键成分。分别采用基于支持向量机的分类方法和基于条件随机域模型的序列化标注方法,实验对比两种方法的结果,序列化标注方法的效果更好。同时,通过分析不同特征对关键成分识别的影响,增加了新的有效特征,改进查询压缩的效果。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[J];中文信息学报;2010年01期
2 高凯;王永成;肖君;;网页去重策略[J];上海交通大学学报;2006年05期
3 陆丽娜,魏恒义,杨怡玲,管旭东;Web日志挖掘中的序列模式识别[J];小型微型计算机系统;2000年05期
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 李卓远,吴为民,王旸,洪先龙;一种新的光学临近校正方法(英文)[J];半导体学报;2003年12期
9 王一丁;杨虹;;基于多目标线性规划的人脸识别方法[J];北方工业大学学报;2009年01期
10 梁万路;;代价敏感支持向量机的投影次梯度求解方法[J];兵工自动化;2011年04期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
7 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
8 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
9 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
4 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
5 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
6 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
7 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
8 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
9 韩艳;基于支持向量机的发酵过程建模研究[D];大连理工大学;2010年
10 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前3条
1 王利强,唐常杰,于中华,何雪梅;基于Web的数据采掘[J];计算机应用;1998年10期
2 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
3 张朝晖,陆玉昌,张钹;发掘多值属性的关联规则[J];软件学报;1998年11期
【相似文献】
中国期刊全文数据库 前10条
1 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];水利电力机械;1991年05期
2 孙宝传;中文信息处理技术如何再创辉煌[J];中国传媒科技;2001年10期
3 ;书讯[J];中文信息学报;2010年02期
4 ;在《中文信息》创刊十周年庆祝会上 四川联合大学龙伟副校长致开幕词[J];中文信息;1994年06期
5 ;推动中文信息现代化工程是炎黄子孙义不容辞的职责——基金会积极筹建 热心人士陆续捐赠[J];中文信息;1995年01期
6 ;读者天地[J];中文信息;1994年01期
7 廖坦,张平;信息港与中文信息环境[J];中文信息;1996年05期
8 许嘉璐;语言学研究与中文信息处理[J];中文信息;1997年03期
9 曲大成;周立峰;;怎样阅读Internet网上的中文信息[J];办公自动化;1997年01期
10 姚进;首都在线——全新本地中文信息网[J];网上出版;1998年02期
中国重要会议论文全文数据库 前10条
1 应莺;李红燕;王建军;潘志勇;邱宝军;;自动化信息系统环境中的业务对象自动生成方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 鲁振德;赵维刚;汪楠;张平;;数据库文件结构自动生成[A];1996中国控制与决策学术年会论文集[C];1996年
3 曹秀爽;李兵;;基于混沌SAGACIA优化方法的模糊控制规则自动生成[A];2006全国复杂网络学术会议论文集[C];2006年
4 尚宗敏;崔立真;王海洋;;智能流程应用模式下基于流程语义库的流程自动生成方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 陈敏;张熙锦;刘祖斌;;Web数据库架构自动生成实现研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 唐喜;任雁铭;孟岩;王治民;;IED自动生成IEC61850模型方法探讨[A];中国智能电网学术研讨会论文集[C];2011年
7 王辉;杨凯;郎士宁;冯少华;王月蓉;;.Net控制Excel自动生成表格的应用研究[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
8 朱兰娟;蔡海航;姜纪红;周春雨;;农业气象灾害预警材料的自动生成[A];中国气象学会2007年年会生态气象业务建设与农业气象灾害预警分会场论文集[C];2007年
9 李冬华;赵学秘;李宗伯;李克洲;;领域内可重构功能单元自动生成方法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
10 吉大纯;陈蕾;梁静;邵四海;;基于PG框架的软件结构测试用例自动生成研究[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年
中国重要报纸全文数据库 前10条
1 记者 马远琼 通讯员 刘韬;一案一人一表台账自动生成[N];检察日报;2005年
2 郑妍汪颂今;杭铁法院开发执行文书软件[N];人民法院报;2007年
3 李力;广东云安建国内首个中文信息化城镇[N];经济日报;2004年
4 崔强;冰炭可同炉 水火亦相容[N];中国财经报;2006年
5 ;用SendLink轻松上传大文件[N];中国计算机报;2005年
6 倪泰;邢台创新打击传销举措见成效[N];中国工商报;2008年
7 陆海青 胡海啸 张梦谦;所得税管理系统自动生成七类报表[N];中国税务报;2006年
8 郭红雨李芙蓉;税管员平台:自动生成工作任务[N];中国税务报;2008年
9 王婷;IDC增值服务:网站日志分析[N];计算机世界;2001年
10 ;中文信息应用网络应运而生[N];网络世界;2001年
中国博士学位论文全文数据库 前10条
1 程学庆;列流图自动生成与空车调配相关问题研究[D];西南交通大学;2007年
2 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
3 陈龙潭;复杂科学观点下的战略性思维建构:基于三个自动生成过程模式之诠释[D];复旦大学;2004年
4 薛朝改;知识化制造系统自重构的研究[D];东南大学;2005年
5 随阳轶;基于数据流可视化语言的虚拟仪器开发平台的研究[D];吉林大学;2008年
6 李方;基于模型集成的嵌入式数控系统设计关键技术研究[D];华南理工大学;2010年
7 王玲;网络服务系统日志安全分析技术研究[D];中国科学院研究生院(计算技术研究所);2006年
8 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
9 张海彬;FPSO储油轮与半潜式平台波浪载荷三维计算方法研究[D];哈尔滨工程大学;2004年
10 隋琪;智能流程模式的研究及其应用[D];山东大学;2006年
中国硕士学位论文全文数据库 前10条
1 李超;基于用户查询日志的中文互联网问句自动生成和查询压缩研究[D];哈尔滨工业大学;2011年
2 兰小飞;基于文本的领域本体进化需求自动生成模型研究[D];湖南大学;2010年
3 陈玉萍;RE控制程序源代码自动生成程序的研究与实现[D];北京化工大学;2010年
4 王宁;Ice应用软件框架自动生成研究[D];重庆大学;2012年
5 赵叶;供电系统作业票计算机自动生成与管理系统设计[D];河北科技大学;2011年
6 谭力;基于情态演算的UML形式化验证与OCL约束自动生成研究[D];华东师范大学;2010年
7 杨华;可视化日志分析系统的研究与实现[D];西安电子科技大学;2010年
8 金龙飞;通用可扩展编译器前端生成器的设计与实现[D];吉林大学;2005年
9 刘洪涛;基于Struts代码自动生成中间件的研究与设计[D];吉林大学;2006年
10 崔欢欢;基于SA规则的全路径用例自动生成方法研究[D];华中师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026