收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征提取和机器学习的现代汉语人称指示代词消解研究

陈林  
【摘要】: 指代是自然语言的常见语言现象,也是语篇衔接的重要手段之一。使用指示代词可以让语篇表述不累赘,简明清晰。指示代词的消解有助于机器分析和理解篇章,并在自动文摘、信息抽取、问答系统和机器翻译等多个自然语言处理领域有着广泛运用。随着篇章处理相关应用的日益发展,指代消解显示出前所未有的重要性,并成为自然语言处理中热门的研究问题。 本文介绍了指代消解在自然语言处理领域的应用意义,对国内外指代消解的理论研究和实现技术进行了总结。本文针对宾州树库的特点,实现了一种基于特征提取及加权的指代消解的方法,同时也实现了一种基于机器学习的指代消解方法。 特征提取是本文的主要内容,人称代词与候选先行词的特征提取是创建先行词候选集的重要条件,本文中通过提取人称代词与候选先行词的指人、性别和单复数特征来过滤候选先行词以创建先行词候选集。而人称代词与先行词候选集中的候选先行词组成的候选对的特征提取则是在候选集中选择先行词的唯一条件。本文中提取了各个候选对的8个特征,然后对这些特征进行加权得到一个匹配权值,先行词则是组成具有最高匹配权值的候选对的词。词语搭配作为一种特殊的语言现象,组成搭配的词语互相存在着暗示。在本文中搭配被用来提取词语的语义信息,同时统计信息也可以从搭配中获取。搭配对于特征提取有着重要的意义。 支持向量机(SVM)作为一种机器学习算法,能够从有限的特征中最大限度的提取分类信息来进行分类。在本文中指代消解被转化为一种特殊的分类问题,即对于每个人称代词来说,它与候选先行词组成的候选对中只有1个候选对能被分为同指类,而其他的候选对要被分为非同指类。 在本文中,基于SVM的指代消解使用SVMLight工具进行分类。分类时使用加权消解方法时提取的特征,然后从SVMLight分类的中间结果中提取消解结果。基于使用搭配改进的特征提取,在宾州树库的全部语料中普通加权的方法得到了86.37%,而在经过挑选的语料中基于SVM的方法得到了超过90%的正确率。而基于搭配的特征提取的使用对于整个系统的性能都有超过10%的提高。实验证明,本文中采取的方法对指代消解存在重要的价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 辛日华;HowNet的构成分析与研究[J];呼伦贝尔学院学报;2003年03期
2 陈晓明,周渝;基于知网的文本标注[J];贵州大学学报(自然科学版);2001年03期
3 辛日华;基于知网的语义剪枝方法研究[J];呼伦贝尔学院学报;2003年02期
4 王厚峰;汉语篇章的指代消解浅论[J];语言文字应用;2004年04期
5 张辉;;K-L变换在人脸识别特征提取中的应用[J];黑龙江史志;2008年01期
6 吴敏;;指代消解在普通语言学理论与课程实践上的应用研究[J];大家;2010年11期
7 张建莉;;基于《知网》语义知识的名词短语识别过程中的排歧[J];福建电脑;2006年04期
8 刘华;;基于文本分类中特征提取的领域词语聚类[J];语言文字应用;2007年01期
9 许余龙;段嫚娟;付相君;;“语句”与“代词”的设定对指代消解的影响——一项向心理论参数化实证研究[J];现代外语;2008年02期
10 李艳翠;杨勇;周国栋;朱巧明;;基于支持向量机的英语名词短语指代消解[J];计算机工程;2009年03期
11 施春宏;;名词的描述性语义特征与副名组合的可能性[J];中国语文;2001年03期
12 普次仁;;多种印刷字体藏文字符的特征提取方法研究[J];西藏大学学报(自然科学版);2008年01期
13 曹志宏;李瑗;;维吾尔文字联机手写体特征提取的研究与实现[J];科技风;2009年14期
14 李剑;;神经网络在音乐分类中的应用研究[J];计算机仿真;2010年11期
15 沈模卫,朱祖祥;整体汉字字形识别过程探索[J];应用心理学;1995年02期
16 刘烨;傅小兰;;自然概念语义特征提取的范畴效应[J];心理科学;2006年02期
17 李蓉;;基于支持向量机的汉语歧义切分算法[J];计算机仿真;2009年07期
18 李斌;丁玉发;刘红奇;;小波包分析技术在电流刀具磨损监测系统中的应用[J];心智与计算;2010年04期
19 蔡建中;张文修;;归纳、创新与知识获取——谈创新思维的训练[J];西安交通大学学报(社会科学版);1997年01期
20 段嫚娟;许余龙;付相君;;前瞻中心的排序对指代消解的影响——一项向心理论参数化实证研究[J];外国语(上海外国语大学学报);2009年03期
中国重要会议论文全文数据库 前10条
1 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
4 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
5 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
6 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
7 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
9 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
10 郗长青;郑建明;李言;罗杰;;基于小波包分解的钻头磨损特征提取[A];制造技术自动化学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
2 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
3 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
4 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
8 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
9 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 陈林;基于特征提取和机器学习的现代汉语人称指示代词消解研究[D];清华大学;2007年
2 武园园;基于关联规则的医学图像智能分类研究[D];江苏大学;2007年
3 孙雯玉;人脸表情识别算法研究[D];北京交通大学;2006年
4 尹本雄;中文搜索引擎中的文档特征提取研究[D];广西师范大学;2004年
5 孔静;基于语义和领域相关的文本聚类研究[D];中国石油大学;2009年
6 梁雷;基于网络评论的客户观点挖掘方法研究[D];哈尔滨工业大学;2010年
7 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
8 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
9 雷自力;基于Pro/E的三维零件参数化建模和特征提取研究[D];华中科技大学;2011年
10 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
中国重要报纸全文数据库 前10条
1 记者 陈磊;中国知网率先推出优先数字出版[N];科技日报;2010年
2 见习记者 廖小珊;中国知网推出优先数字出版 读者可多种数字渠道获取[N];中国新闻出版报;2010年
3 本报记者 杨杨;投资、创业两不误:李童的“新孩子”恒知网[N];21世纪经济报道;2011年
4 记者 王秀萍;“中国知网”集约化印刷华北基地在并建成[N];山西经济日报;2010年
5 程晓龙;中国知网联姻施普林格[N];中国新闻出版报;2008年
6 陈;思科用无线感知网络[N];中国计算机报;2003年
7 李大庆;中国知网与施普林格全面合作[N];科技日报;2008年
8 路华;中华行知网(www.sotrip.com)文化与旅游的契合[N];中国旅游报;2000年
9 高向东;千家数字图书馆对接“中国知网”数字出版平台[N];山西日报;2007年
10 计亚男;中国知网数据库携手施普林格[N];光明日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978