收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

词搭配抽取及在信息检索中的应用研究

林建方  
【摘要】: 搭配描述的是词与词之间组合在一起表达某种特殊含义的词汇现象,在词和短语之间架起了一个桥梁,是语言信息处理链条上重要的一环。随着统计机器学习和自然语言处理技术的发展,基于大规模语料库知识的自动获取成为趋势。建立高质量的单语和双语搭配词汇知识资源不仅对语言本体研究有着重要的理论意义;在自然语言处理应用领域,如机器翻译、信息检索及跨语言信息检索等也有着广泛的应用前景。 信息抽取是从文档中自动获取信息的一种重要手段,搭配抽取涉及的是单词之间的关系抽取,是信息抽取的一项子任务。本文借鉴信息抽取中常用算法和统计机器学习模型,通过多种统计量融合和多分类器融合的方法进行单词之间的搭配抽取。并将获取的单语和双语搭配应用于信息检索中的查询扩展和查询翻译,提高最终检索性能。 具体来讲,本文主要从以下几方面做了研究: 1.提出基于多统计量融合与多分类器融合的搭配抽取方法。目前的方法都是基于单一词汇关联方法的,没有考虑每一种方法的优缺点和适用范围,本论文提出一种基于线性回归模型的搭配抽取方法,融合了五种经典统计关联方法,包括互信息、共现频率、t检验、χ2检验、对数似然比检验,充分融合实现优势互补。数据来自Web反馈信息,根据候选搭配及构成词在谷歌出现的页面数模拟在语料库出现的次数。同时针对多统计量融合对于某些类型搭配的缺陷,提出多分类器融合的策略。本文主要研究异态学习模型,融合的模型来自三种不同的分类器算法,包括支持向量机、最大熵和条件随机域,融合策略使用投票法和线性加权方法。 2.提出一种英汉双语搭配翻译模型。英语和汉语两种语言之间,有这样的假设,相同的依存句法关系之间存在着强烈的相互对应关系。本论文借鉴统计机器翻译模型,提出一种双语搭配翻译模型。分别通过词对齐级的双语语料库和单语语料库训练统计翻译模型和目标语言模型,这种充分利用单语语料库和双语语料库的双语搭配翻译模型获得良好的性能。 3.研究了词搭配关系应用于信息检索的查询扩展中。传统的查询扩展方法都是通过单词之间共现关系或WordNet词典关系的,本论文选择同时具有语义和句法关系的搭配单词进行查询扩展。在传统语言模型框架下扩展查询模型,借鉴了局部上下文分析技术,同时结合了语言学知识和统计信息。在一定程度上可以弥补用户查询信息不足的缺陷,实验结果表明可以大大提高检索性能。 4.研究了双语搭配应用于跨语言信息检索的查询翻译中。基于双语字典的查询翻译策略目前是跨语言信息检索主流方法,但容易出现两类问题:一为译词选择歧义问题;二是词典覆盖率问题,再大的词典也不可能收录所有的翻译选项。针对第一类问题本文分别提出了双语衰减共现模型和双语搭配翻译模型两种统计方法。前者在传统的共现方法中引入距离位置因子,着重考虑单词间的关联程度随着间距而变化;后者将搭配关系融入到跨语言的查询翻译中。针对未登录词(OOV)翻译,本论文提出一种基于Web反馈数据的OOV识别方法。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 王大亮;张德政;涂序彦;郑雪峰;佟子健;;基于相对条件熵的搭配抽取方法[J];北京邮电大学学报;2007年06期
2 李卫疆;赵铁军;王宪刚;;基于统计机器翻译模型的查询扩展[J];电子与信息学报;2008年03期
3 陈鄞;吕雅娟;李生;;基于多特征的搭配翻译模型研究[J];哈尔滨工业大学学报;2007年11期
4 白妙青;郑家恒;;利用支持向量机实现动词-动词搭配的自动标注[J];计算机工程与应用;2005年35期
5 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
6 曲维光,陈小荷,吉根林;基于框架的词语搭配自动抽取方法[J];计算机工程;2004年23期
7 楼炉群;牛军钰;;信息检索中语言模型的研究[J];计算机工程;2007年04期
8 张敏,宋睿华,马少平;基于语义关系查询扩展的文档重构方法[J];计算机学报;2004年10期
9 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[J];中文信息学报;2006年03期
10 闵金明;孙乐;张俊林;;重新审视跨语言信息检索[J];中文信息学报;2006年04期
【共引文献】
中国期刊全文数据库 前10条
1 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
2 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
3 张海;王尧;陈冰;胡荣祖;高红旭;赵凤起;;用Boosting算法预测多硝基芳香族化合物的密度[J];火炸药学报;2007年05期
4 张海;丁毅涛;王尧;胡荣祖;高红旭;赵凤起;;自适应梯度Boosting算法及多硝基芳香族化合物密度的主因子选择[J];火炸药学报;2011年02期
5 冯志伟;;信息时代的翻译工具[J];北华大学学报(社会科学版);2007年06期
6 冯志伟;;语音合成中的文本归一化问题[J];北华大学学报(社会科学版);2010年02期
7 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
8 雷雪梅;王大亮;田中贵秋;曾广平;;基于深层特征抽取的日文词义消歧系统[J];北京科技大学学报;2010年02期
9 翟云;杨炳儒;王树鹏;张德政;安冰;;基于协同进化机制的欠采样方法[J];北京科技大学学报;2011年12期
10 马楠;杨炳儒;翟云;李广原;张德政;;一种模糊认知图分类器构造方法[J];北京科技大学学报;2012年05期
中国重要会议论文全文数据库 前10条
1 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 杨云升;宋强莉;;语义关联对干扰效果以及干扰效果评估的影响分析[A];2011'中国西部声学学术交流会论文集[C];2011年
3 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
4 ;Multiple ANNs Combined Scheme for Fault Diagnosis of Power Transformers[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
5 陈峰;桂卫华;王随平;韩晓英;;深海底履带机器车的多神经网络预测控制[A];第二十三届中国控制会议论文集(下册)[C];2004年
6 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
7 李晶;陈媛媛;;基于AdaBoost的车牌字符识别模型研究[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅰ)[C];2008年
8 胡良梅;张骏;谢昭;;Booosting及其在图像理解中应用综述[A];第七届全国信息获取与处理学术会议论文集[C];2009年
9 韩松来;张辉;周华平;;决策树算法中多值偏向问题的理论分析[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
10 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
4 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
5 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
6 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
7 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
8 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
9 徐迪红;复杂背景下的交通标志检测和分类算法研究[D];武汉大学;2010年
10 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
4 王萍;语音情感识别研究[D];山东科技大学;2010年
5 许旭;韵律对并列结构歧义的消解影响[D];辽宁师范大学;2010年
6 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
7 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
8 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
9 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
10 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
2 由丽萍,王素格;汉语动词-动词搭配规则与分布特征[J];计算机工程与应用;2005年23期
3 张俊林;曲为民;杜林;孙玉芳;;跨语言信息检索研究进展[J];计算机科学;2004年07期
4 曲维光,陈小荷,吉根林;基于框架的词语搭配自动抽取方法[J];计算机工程;2004年23期
5 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
6 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
7 张敏,宋睿华,马少平;基于语义关系查询扩展的文档重构方法[J];计算机学报;2004年10期
8 全昌勤,刘辉,何婷婷;基于统计模型的词语搭配自动获取方法的分析与比较[J];计算机应用研究;2005年09期
9 聂建云,陈江;利用平行网页建立中英文统计翻译模型[J];中文信息学报;2001年01期
10 王进,陈恩红,张振亚,王煦法;基于本体的跨语言信息检索模型[J];中文信息学报;2004年03期
中国重要会议论文全文数据库 前2条
1 张昱琪;周强;;大规模真实文本中汉语动词语法搭配模板的自动识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 高建忠;;汉语动宾搭配的自动识别研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 阳小华;蒋辉;马家宇;;基于任务上下文的查询扩展方法[J];郑州大学学报(理学版);2010年01期
2 黄名选;陈燕红;张师超;;基于关联规则挖掘的查询扩展模型研究[J];现代图书情报技术;2007年10期
3 谭义红;李学勇;陈治平;;关联规则挖掘在Web信息检索中的应用[J];计算机工程;2006年09期
4 徐建民;崔琰;刘清江;;基于同义词关系改进的局部共现查询扩展[J];情报杂志;2010年09期
5 李卫疆;赵铁军;王宪刚;;基于统计机器翻译模型的查询扩展[J];电子与信息学报;2008年03期
6 陈锐;张蕾;卢春俊;牟力科;;基于概念图的信息检索的查询扩展模型[J];计算机应用;2009年02期
7 王秀娟;郑康锋;;基于文档空间向量距离的查询扩展[J];计算机工程;2009年18期
8 黄名选;严小卫;;基于查询语义树的语义查询扩展研究[J];情报理论与实践;2007年06期
9 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
10 李大高;程显毅;张冬慧;;基于关联规则与聚类算法的查询扩展算法[J];计算机工程;2009年06期
中国重要会议论文全文数据库 前10条
1 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王秉卿;张奇;吴立德;黄萱菁;;机器学习的查询扩展在博客检索中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 刘全升;姚天昉;;基于关联度模型的文本倾向性检索研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 周博;岑荣伟;刘奕群;张敏;马少平;;相关反馈任务中一种基于文档相似度的检索结果重排序方法[A];第五届全国信息检索学术会议论文集[C];2009年
6 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
7 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
10 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
9 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
4 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
5 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
6 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
7 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年
8 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
9 董道国;高维数据索引结构研究[D];复旦大学;2005年
10 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
2 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
3 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
4 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
5 方芳;中文信息检索系统与文档重排技术研究[D];武汉科技大学;2010年
6 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
7 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
8 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
9 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
10 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026