收藏本站
《华中科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于大规模问答语料的问题检索系统

王君泽  
【摘要】: 由于问句表达的文本模糊性以及自然语言本身的复杂性,现有的web搜索引擎还不能很好的处理用户的自然语言提问。正是由于web搜索引擎的这种不足,问答服务型网站作为其有益补充,在近年来得到快速的发展。在问答服务型网站,用户可以直接用自然语言描述自己的问题,并获取其他用户提供的答案,而无需像使用web搜索引擎那样,在大量返回结果中寻找答案。目前如"Yahoo! Answers"、“新浪爱问”、“百度知道”等问答服务型网站已经积累了海量的问答数据。比如截止至2009年7月,“百度知道”已经积累了超过7千万个中文问答对。 本论文的研究以互联网上的海量问答对数据为基础,构建基于大规模问答语料的问题检索系统中的关键技术。问题检索系统的主要思想是:根据用户提出的问题,可以在已有的问答语料中检索与该提问具有相同语义的问答对数据,并提供给用户,以直接满足用户的信息需求,从而避免了用户从大量网页中归纳答案、或者等待其他用户提供答案所带来的不便。 本论文对基于大规模问答语料的问题检索系统展开了一系列研究。首先,本论文研究了问题检索系统中的问题文本分类任务,以进一步确定用户的信息需求,改善用户的使用体验;同时,本论文提出对用户提问的主题进行分析,以更好的确定用户的信息需求,并自动的为用户提供与该提问语义相同或者相近的问题及相应的答案,以直接满足用户的信息需求;此外,考虑到人类社会中大量没有被问答服务型网站所包含,甚至并没有形成网页的知识,本论文讨论了如何对讨论组所产生的文本聊天数据进行分析,并从中提炼出问答数据,以扩充问题检索系统所能使用的问答语料,进一步提升问题检索系统的性能。本论文具体的研究内容和相关成果如下: 1、为了完善问题检索系统的功能,本论文深入研究了问题分类技术在问题检索系统中的应用。问题检索系统中的主要任务之一是对用户的提问进行分类,以进一步确定用户的信息需求。基于Kullback-Leibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本论文在该算法的基础上,结合语言模型的思想,提出一种改进的分类算法:n-gram KLD。通过在一个大尺度的问答数据集合上进行的一系列实验,表明n-gram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好的满足了问题分类任务的要求。 2、本论文在语言模型的框架下,提出一种计算问题之间的相似度的方法。问题相似度计算的主要困难在于,问题文本往往较短,传统的文本相似度计算方法仅考虑了长文本的相似度处理,很难用于判断两个问句的主题是否相关;而针对问题本文等短文本的相似度计算的工作还较少。本论文提出利用大规模语料库中的单词之间的共现频度对单词间的关联关系进行建模;在此基础上,利用随机行走的思想,计算问句中各个单词与问句主题的相关程度,并按照与问句主题相关程度的不同,对问句中的不同单词设置不同的权重,以突出问句的主题。通过该策略有助于发现同样反映该主题的问句。实验表明,使用该方法可以有效的检索到与用户提问相关的其他问句,有助于根据使用者的信息需求,提供更高质量的检索服务。 3、按照百度的“暗网”计划的描述,互联网上的信息仅有不足0.2%的部分型成了可以被检索的网页,而人类社会中的大量知识还不能被搜索引擎检索到。本论文关注了由讨论组所产生的文本聊天数据。文本聊天数据中包含了大量的可用信息,这些信息往往构成不同的线索,每条线索都是关于某话题的有用的问答数据,但这些问答数据尚未能得到很好的管理和挖掘。本论文通过考虑聊天数据中消息的内容和上下文信息,并结合使用统计翻译模型的思想,挖掘消息与话题线索之间隐含的语义关联,按照不同的话题线索对消息文本进行归类。最后所形成的话题线索,是有用的问答对资源。通过在一个真实数据集进行的试验,表明本论文提出的方法的有效性。该方法有助于从讨论组所产生的文本聊天数据中提炼出问答对资源,进一步扩充问题检索系统所能使用的问答语料的规模。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 曹月芹;;动态文本流中的话题线索检测算法[J];计算机工程;2011年24期
2 王雅蕾;王君泽;王国华;徐晓林;;问答服务中的基于类文档排名的问题分类算法[J];情报科学;2012年02期
【参考文献】
中国期刊全文数据库 前2条
1 刘佳宾;胡国平;陈超;邵正荣;;基于决策树和马尔可夫链的问答对自动提取[J];中文信息学报;2007年02期
2 张军;张德运;傅鹏;;基于模糊多类支持向量机的语音质量客观评价[J];西安交通大学学报;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
2 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
5 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
6 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
7 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
8 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
9 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
10 陈景年;黄厚宽;杨莉萍;田凤占;;基于分布不完整数据选择性分类器[J];北京交通大学学报;2008年02期
中国重要会议论文全文数据库 前10条
1 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
4 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
5 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
7 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
8 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
9 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
10 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
5 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
6 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
7 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
8 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
9 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
10 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
6 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
7 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
8 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
9 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
10 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前7条
1 骆卫华;刘群;白硕;;面向大规模语料的语言模型研究新进展[J];计算机研究与发展;2009年10期
2 郑继明;张萍;;改进的BIC说话人分割算法[J];计算机工程;2010年17期
3 刘玉葆;蔡嘉荣;印鉴;傅蔚慈;;Clustering Text Data Streams[J];Journal of Computer Science & Technology;2008年01期
4 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
5 张玉峰;王志芳;;文本分类中的语义核函数研究[J];情报科学;2010年07期
6 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国博士学位论文全文数据库 前1条
1 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
【二级参考文献】
中国期刊全文数据库 前3条
1 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
2 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
3 于琨,蔡智,糜仲春,蔡庆生;基于路径学习的信息自动抽取方法[J];小型微型计算机系统;2003年12期
【相似文献】
中国期刊全文数据库 前10条
1 徐学锋;朱玉;;安全科技特色数据库建设——以华北科技学院图书馆为例[J];情报探索;2006年11期
2 彭奇志;;基于.NET的引文信息检索系统的研究与实现[J];现代情报;2007年01期
3 魏树铭;介绍一个多文种兼容的科技文献计算机管理和检索系统[J];图书馆工作与研究;1986年04期
4 余乃言,孙伯庆,陈北柳;《中国化工文摘》计算机编辑排版及检索系统[J];现代化工;1987年01期
5 本刊编辑部;《物理》已成为世界六大检索系统的“座上客”[J];物理;1991年07期
6 王占文;档案微机通用检索系统[J];郑州航空工业管理学院学报;1995年01期
7 阳世青;有色金属科技信息检索系统研究[J];世界有色金属;1997年09期
8 杨力,张青;浅析ChinaInfo之优势[J];中国信息导报;1998年08期
9 李法勇;在线信息检索系统市场策略探讨[J];情报理论与实践;1999年01期
10 邵仁志;基于Win32平台的通用文献数据库系统的研制[J];现代图书情报技术;2000年06期
中国重要会议论文全文数据库 前10条
1 黄永光;刘挺;车万翔;胡晓光;;面向变异短文本的快速聚类算法[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
2 吴坚;;上海市高校自然科学学报被“SCI”等检索系统收录情况分析[A];学报编辑论丛(第十集)[C];2002年
3 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
4 罗先碧;蒋红;彭雪雪;朱和平;;国际重要检索系统及其对科技期刊的影响[A];科技编辑出版研究文集(第六集)[C];2001年
5 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
6 尹承恕;;论建立我国自主权威的论文评价体系[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年
7 王克黎;;美国5种著名检索系统[A];第7届中国科技期刊青年编辑学术研讨会暨中国科技期刊的经营与发展论坛文集[C];2007年
8 杨光复;;论年鉴的检索系统和信息开发[A];创新与发展——云南省年鉴论文选(续集)[C];2006年
9 陈光宇;顾凤南;;《数学年刊》走向世界与国际接轨的探索[A];学报编辑论丛(第六集)[C];1996年
10 张秀峰;;国际医学英文文献检索系统的介绍及思考[A];学报编辑论丛(第七集)[C];1998年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 艾文;让检索系统更人性化[N];中国计算机报;2004年
3 柯文;找音乐?会哼几句就行[N];人民日报;2006年
4 致蓝;知识管理的利器[N];科技日报;2001年
5 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
6 俞晓燕 刘景武;电子档案检索系统的探索[N];中国档案报;2003年
7 陈玉荣;更多、更快、更新的检索系统[N];中国企业报;2000年
8 章言;炎黄在线信息检索系统建立[N];中国质量报;2001年
9 梅青;《中国野生动物保护检索系统》通过鉴定[N];中国绿色时报;2006年
10 记者 刘洁;陕西:群众查找“红头文件”不再难[N];中国纪检监察报;2007年
中国博士学位论文全文数据库 前10条
1 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
2 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
3 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
4 易文晟;图像语义检索和分类技术研究[D];浙江大学;2007年
5 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
6 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
7 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
8 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
9 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
10 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 齐晓倩;短语料固定语音检索技术研究[D];解放军信息工程大学;2011年
2 赵健;基于领域本体的RDF检索模型研究[D];吉林大学;2009年
3 胡长春;基于Lucene的中文自然语言搜索引擎[D];上海交通大学;2009年
4 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
5 王玉娟;农业知识文本库检索系统关键技术研究[D];湖南农业大学;2012年
6 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
7 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
8 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 魏忠钰;金融新闻检索系统中新闻相关性分类研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026