收藏本站
《北京邮电大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语指代消解及相关技术研究

王智强  
【摘要】:大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象,它使得句子更加简明,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。指代消解就是为解决这一问题而形成的文本信息处理中的一个重要任务分支。随着篇章处理的相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理领域的研究热点。它在信息抽取、机器翻译、自动文摘、问答系统等许多自然语言处理应用领域中发挥着重要作用。 本文针对汉语指代消解及相关技术,包括汉语基本名词短语识别、机器学习等进行了深入系统的分析和研究,主要取得的成果如下: 1、提出了一种基于规则的汉语基本名词短语识别算法——基于扩展词性模板算法。该方法通过对基本名词短语上下文环境中词汇的统计和分析,将词性模板和上下文环境信息构成扩展词性模板,用扩展词性模板对标注结果进行修正。由于采用的扩展模板较为合理和准确,使得识别的正确率达到94.48%。 2、提出了一种基于规则和统计相结合的汉语基本名词短语识别算法。规则方法和统计方法存在一定的互补性。本文将两种方法进行融合,先利用统计方法标注,再利用扩展词性模板纠正。实验结果表明,该方法在一定程度上弥补了规则方法和统计方法的不足,识别的F指数达到89.51%,均高于单纯一种方法得到的结果。 3、在借鉴英语指代消解算法的基础上,结合汉语自身特点,提出了基于机器学习算法的汉语人称代词指代消解方法。现今指代消解技术正在由单一的基于规则的技术向采用机器学习方向发展。基于机器学习方法将指代消解问题转化为分类问题,通过分类器判断照应语与每个候选项之间是否存在指代关系,实现指代消解。该方法具有实现简单、扩展性好、抗噪声能力强的特点。本文分别将决策树、最大熵、条件随机场三种机器学习模型应用于该方法,均收到了良好的效果,通过对结果的分析比较,条件随机场模型在性能上优于其它两种模型。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前2条
1 胡广朋;程辉;邵玉宝;;基于层叠条件随机场的网络入侵识别[J];江苏科技大学学报(自然科学版);2008年05期
2 郎君;秦兵;刘挺;李正华;李生;;中文人称名词短语单复数自动识别[J];自动化学报;2008年08期
中国博士学位论文全文数据库 前1条
1 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
中国硕士学位论文全文数据库 前2条
1 谭魏璇;命名实体与基本名词短语识别研究[D];苏州大学;2010年
2 高俊伟;中文指代消解关键问题研究[D];苏州大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
2 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
3 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
4 王凌飞,张玉敏,李堂秋;汉英机译系统中指代的确定 [J];计算机应用研究;2000年09期
5 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
6 刘礼进;;中心理论和回指解析计算法[J];外语学刊;2005年06期
7 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
8 王厚峰,梅铮;鲁棒性的汉语人称代词消解[J];软件学报;2005年05期
9 王晓斌,周昌乐;基于语篇表述理论的汉语人称代词的消解研究[J];厦门大学学报(自然科学版);2004年01期
10 许敏,王能忠,马彦华;汉语中指代问题的研究及讨论[J];西南师范大学学报(自然科学版);1999年06期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 何甫权;;英语指代与翻译[J];安徽文学(下半月);2008年08期
8 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
9 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
10 左吉峰;乔均俭;;ID3算法的合理性证明及实验分析[J];保定学院学报;2008年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 刘凯;王志洋;于惠;孙萌;宋林峰;李佳正;何晋一;孟凡东;刘洋;吕雅娟;刘群;;2011全国机器翻译研讨会计算所系统描述[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
7 郭燕慧;王枞;钟义信;;语言认知与主题内容识别[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
8 李卫;王枞;李蕾;郭燕慧;钟义信;;全信息知识制导的科技期刊初审辅助系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
10 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前10条
1 吴善子;汉韩反诘语气副词对比研究[D];上海外国语大学;2010年
2 王红;基础地理信息地形数据库信息量度量方法研究[D];辽宁工程技术大学;2010年
3 苏日建;信息测量系统及其若干问题的研究[D];华中科技大学;2010年
4 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
5 彭永祥;基于旅游者收益的地质公园核心竞争力及其评价[D];陕西师范大学;2010年
6 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
7 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
8 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
9 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
10 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
5 郭婧;英汉校内通知信息流模式的对比分析[D];大连理工大学;2010年
6 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
7 李仁良;决策树算法在临床诊断中的应用研究[D];辽宁工程技术大学;2009年
8 郑陶;基于平面向量的决策树算法在高考志愿选择系统中的应用[D];辽宁工程技术大学;2010年
9 孙怡哲;一种改进的决策树算法研究与应用[D];辽宁工程技术大学;2010年
10 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
2 陈雪艳;吕国英;李茹;何鹏;;基于层叠条件随机场的CFN自动标注研究[J];电脑开发与应用;2009年03期
3 高国洋;戚银城;潘德锋;;基于条件随机场与规则相结合的中文地名识别[J];电脑开发与应用;2009年08期
4 陈刚,金芝,陆汝钤;虚拟企业及其协作模型[J];电子学报;2002年S1期
5 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
6 胡广朋;钱遥立;沈继峰;;一种应用规划识别建立自然语言接口的方法[J];江苏科技大学学报(自然科学版);2006年03期
7 梁颖红,赵铁军,岳琪;英语基本名词短语识别技术研究[J];信息技术;2004年12期
8 张黎;汉语名词数范畴的表现方式[J];汉语学习;2003年05期
9 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
10 尹邦彦;英语零照应的类型与主要特征[J];解放军外国语学院学报;1999年02期
中国重要会议论文全文数据库 前2条
1 侯敏;孙建军;;面向汉英机器翻译的句组研究[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
2 史晓东;陈毅东;;基于语篇的机器翻译前瞻[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 孔芳;指代消解关键问题研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前6条
1 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
2 李飒;基于GATE的中文信息抽取系统的开发和实现[D];中国科学院研究生院(文献情报中心);2006年
3 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
4 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
5 杨勇;基于特征向量的名词短语指代消解研究[D];苏州大学;2008年
6 胡乃全;基于特征向量的中文指代消解研究与系统实现[D];苏州大学;2009年
【二级引证文献】
中国期刊全文数据库 前4条
1 蔡增玉;甘勇;谷文祥;李淑霞;;基于应对规划的入侵防护系统设计与研究[J];东北师大学报(自然科学版);2010年03期
2 顾佼佼;姜文志;栗飞;胡文萱;;基于条件随机场的实时入侵检测系统框架实现[J];海军航空工程学院学报;2011年05期
3 钟丹;朱倩;李梅;程显毅;;人称名词短语单复数信息和最大熵模型的指代消解[J];江南大学学报(自然科学版);2009年06期
4 蔡增玉;谷文祥;甘勇;刘书如;;基于规划识别的入侵检测研究[J];计算机工程与科学;2010年12期
中国博士学位论文全文数据库 前1条
1 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前7条
1 易利涛;基于领域本体的Web信息抽取研究[D];中南大学;2011年
2 黄甫;领域知识的不确定性推理研究[D];昆明理工大学;2011年
3 汤炜;基于OWL的语义检索系统的研究与应用[D];武汉理工大学;2009年
4 方艳芬;多源文档全文检索系统设计与实现[D];华中师范大学;2009年
5 陈睿扬;面向体育新闻领域的中文简单名词短语共指消解[D];南京理工大学;2009年
6 梁伟;规划识别在入侵检测系统中的研究与应用[D];江苏科技大学;2010年
7 陈旭刚;基于社会网络分析的藏语web社群挖掘[D];西北民族大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
2 苗兴伟;语篇向心理论述评[J];当代语言学;2003年02期
3 袁毓林;句子的焦点结构及其对语义解释的影响[J];当代语言学;2003年04期
4 钟义信;知行学引论——信息 知识 智能的统一理论[J];中国工程科学;2004年06期
5 刘海军,黄河燕,陈肇雄;智能机器翻译系统中的语境处理[J];计算机研究与发展;1998年04期
6 王厚峰;;句类中E块的作用及其判定策略[J];计算机科学;2000年05期
7 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
8 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
9 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
10 王德亮;汉语零形回指解析——基于向心理论的研究[J];现代外语;2004年04期
【相似文献】
中国期刊全文数据库 前10条
1 钱小飞;;最长名词短语识别研究[J];现代语文(语言研究版);2009年07期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
4 于丽丽;丁德鑫;曲维光;陈小荷;李惠;;基于条件随机场的古汉语词义消歧研究[J];微电子学与计算机;2009年10期
5 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
6 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
7 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
8 王俊生,韦钰;复参数最大熵图像重建的剑桥算法[J];通信学报;1994年06期
9 吕红,李时光,徐问之,闫旭,吕怡;不完全扇形投影数据的图象重建算法研究[J];重庆大学学报(自然科学版);1997年05期
10 沈勤中;周国栋;朱巧明;孔芳;丁金涛;;基于字位置概率特征的条件随机场中文分词方法[J];苏州大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前10条
1 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 梁颖红;赵铁军;翟舒;;规则和边界统计相结合的英语基本名词短语识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 王玉明;;最大熵可靠性评估方法的改进[A];中国工程物理研究院科技年报(2003)[C];2003年
4 罗云飞;李国臣;;采用优先选择策略的中文人称代词的指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 孙萌;姚建民;吕雅娟;刘群;姜文斌;;基于最大熵短语重排序模型的特征抽取算法改进[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 陈宁昱;周雅倩;黄萱菁;吴立德;;利用未标注语料改进实体名识别性能[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前3条
1 曹莉敏;谱分解解释技术[N];中国石油报;2006年
2 本报记者 张晶;水与细胞的关系是什么?[N];科技日报;2011年
3 程相然 邹兵 陈启;五十年铸盾保信息安全[N];科技日报;2011年
中国博士学位论文全文数据库 前10条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
3 滕海文;基于最大熵的结构两相优化设计[D];北京工业大学;2002年
4 孙珊珊;向心理论的参数设定及其在英汉指代消解中的应用研究[D];上海外国语大学;2011年
5 孔芳;指代消解关键问题研究[D];苏州大学;2009年
6 陈军;短信号分析技术及其在故障诊断中的应用[D];武汉理工大学;2003年
7 袁连喜;线性盲源分离算法的理论与应用研究[D];哈尔滨工程大学;2006年
8 刘哲;基于信息融合的遥感图像处理方法研究[D];西北工业大学;2002年
9 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
10 张新福;我国商业银行操作风险管理研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 谭魏璇;命名实体与基本名词短语识别研究[D];苏州大学;2010年
2 何楠;基于统计机器学习的两阶段中文命名实体识别研究[D];北京邮电大学;2008年
3 包森成;基于统计模型的韵律结构预测研究[D];北京邮电大学;2009年
4 黄李伟;中文零指代消解研究[D];苏州大学;2010年
5 陈九昌;指代消解中待消解项识别研究[D];苏州大学;2010年
6 陆长生;中文跨文档指代消解的研究与实现[D];苏州大学;2010年
7 孙瑞娜;基于最大熵的哈萨克语基本名词短语识别研究[D];新疆大学;2011年
8 倪吉;中文人名跨文档指代消解研究[D];苏州大学;2011年
9 邱强;新闻语料中名词短语识别的研究[D];北京邮电大学;2011年
10 黄元萃;汉语基本名词短语的自动识别模型[D];大连理工大学;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026