收藏本站
《北京邮电大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语指代消解及相关技术研究

王智强  
【摘要】:大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象,它使得句子更加简明,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。指代消解就是为解决这一问题而形成的文本信息处理中的一个重要任务分支。随着篇章处理的相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理领域的研究热点。它在信息抽取、机器翻译、自动文摘、问答系统等许多自然语言处理应用领域中发挥着重要作用。 本文针对汉语指代消解及相关技术,包括汉语基本名词短语识别、机器学习等进行了深入系统的分析和研究,主要取得的成果如下: 1、提出了一种基于规则的汉语基本名词短语识别算法——基于扩展词性模板算法。该方法通过对基本名词短语上下文环境中词汇的统计和分析,将词性模板和上下文环境信息构成扩展词性模板,用扩展词性模板对标注结果进行修正。由于采用的扩展模板较为合理和准确,使得识别的正确率达到94.48%。 2、提出了一种基于规则和统计相结合的汉语基本名词短语识别算法。规则方法和统计方法存在一定的互补性。本文将两种方法进行融合,先利用统计方法标注,再利用扩展词性模板纠正。实验结果表明,该方法在一定程度上弥补了规则方法和统计方法的不足,识别的F指数达到89.51%,均高于单纯一种方法得到的结果。 3、在借鉴英语指代消解算法的基础上,结合汉语自身特点,提出了基于机器学习算法的汉语人称代词指代消解方法。现今指代消解技术正在由单一的基于规则的技术向采用机器学习方向发展。基于机器学习方法将指代消解问题转化为分类问题,通过分类器判断照应语与每个候选项之间是否存在指代关系,实现指代消解。该方法具有实现简单、扩展性好、抗噪声能力强的特点。本文分别将决策树、最大熵、条件随机场三种机器学习模型应用于该方法,均收到了良好的效果,通过对结果的分析比较,条件随机场模型在性能上优于其它两种模型。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钱小飞;;最长名词短语识别研究[J];现代语文(语言研究版);2009年07期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
4 于丽丽;丁德鑫;曲维光;陈小荷;李惠;;基于条件随机场的古汉语词义消歧研究[J];微电子学与计算机;2009年10期
5 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
6 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
7 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
8 王俊生,韦钰;复参数最大熵图像重建的剑桥算法[J];通信学报;1994年06期
9 吕红,李时光,徐问之,闫旭,吕怡;不完全扇形投影数据的图象重建算法研究[J];重庆大学学报(自然科学版);1997年05期
10 沈勤中;周国栋;朱巧明;孔芳;丁金涛;;基于字位置概率特征的条件随机场中文分词方法[J];苏州大学学报(自然科学版);2008年03期
11 李建平;王慧强;卢爱平;郝洪亮;冯光升;;基于条件随机场的网络安全态势量化感知方法[J];传感器与微系统;2010年10期
12 吴谨,李娟,刘成云,夏贝贝;基于最大熵的灰度阈值选取方法[J];武汉科技大学学报(自然科学版);2004年01期
13 余卫雄,姜礼平;基于粗集和最大熵的模式识别方法[J];海军工程大学学报;2004年03期
14 江兴方,陶纯堪,是度芳;用最大熵方法改善图像质量[J];江苏工业学院学报;2005年01期
15 王靖;徐向阳;符蓉;;一种优化的用于中文分词的CRF机器学习模型[J];微计算机信息;2010年12期
16 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
17 朱丹浩;王东波;谢靖;;基于条件随机场的介宾结构自动识别[J];现代图书情报技术;2010年Z1期
18 邓箴;;基于二维关联边条件随机场的Web信息抽取[J];价值工程;2010年34期
19 赵玉芹;刘琳;;条件随机场在手势识别中的应用研究[J];科技传播;2011年18期
20 魏明果,刘润泽;射线方程及最大熵图像重建方法的应用研究[J];三峡大学学报(自然科学版);1997年02期
中国重要会议论文全文数据库 前10条
1 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 梁颖红;赵铁军;翟舒;;规则和边界统计相结合的英语基本名词短语识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 王玉明;;最大熵可靠性评估方法的改进[A];中国工程物理研究院科技年报(2003)[C];2003年
4 罗云飞;李国臣;;采用优先选择策略的中文人称代词的指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 孙萌;姚建民;吕雅娟;刘群;姜文斌;;基于最大熵短语重排序模型的特征抽取算法改进[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 陈宁昱;周雅倩;黄萱菁;吴立德;;利用未标注语料改进实体名识别性能[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前3条
1 曹莉敏;谱分解解释技术[N];中国石油报;2006年
2 本报记者 张晶;水与细胞的关系是什么?[N];科技日报;2011年
3 程相然 邹兵 陈启;五十年铸盾保信息安全[N];科技日报;2011年
中国博士学位论文全文数据库 前10条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
3 滕海文;基于最大熵的结构两相优化设计[D];北京工业大学;2002年
4 孙珊珊;向心理论的参数设定及其在英汉指代消解中的应用研究[D];上海外国语大学;2011年
5 孔芳;指代消解关键问题研究[D];苏州大学;2009年
6 陈军;短信号分析技术及其在故障诊断中的应用[D];武汉理工大学;2003年
7 袁连喜;线性盲源分离算法的理论与应用研究[D];哈尔滨工程大学;2006年
8 刘哲;基于信息融合的遥感图像处理方法研究[D];西北工业大学;2002年
9 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
10 张新福;我国商业银行操作风险管理研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 谭魏璇;命名实体与基本名词短语识别研究[D];苏州大学;2010年
2 何楠;基于统计机器学习的两阶段中文命名实体识别研究[D];北京邮电大学;2008年
3 包森成;基于统计模型的韵律结构预测研究[D];北京邮电大学;2009年
4 黄李伟;中文零指代消解研究[D];苏州大学;2010年
5 陈九昌;指代消解中待消解项识别研究[D];苏州大学;2010年
6 陆长生;中文跨文档指代消解的研究与实现[D];苏州大学;2010年
7 孙瑞娜;基于最大熵的哈萨克语基本名词短语识别研究[D];新疆大学;2011年
8 倪吉;中文人名跨文档指代消解研究[D];苏州大学;2011年
9 邱强;新闻语料中名词短语识别的研究[D];北京邮电大学;2011年
10 黄元萃;汉语基本名词短语的自动识别模型[D];大连理工大学;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978