收藏本站
《南京师范大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

含“的”最长名词短语的自动识别

钱小飞  
【摘要】: 最长名词短语的识别能够为自动句法分析、机器翻译系统提供有力的支持。以往的研究着力于短语边界的发现,而对于最长名词短语本身缺乏深入的探讨。汉语语法研究指出,多数偏正结构,可以根据是否带“的”,分为粘合式偏正结构和组合式偏正结构。从内部看,由于“的”字短语的存在,这些组合式偏正结构能够容纳更多的词类和句法结构;从外部看,两者的句法表现也有一定差别。因此,汉语最长名词短语可以进一步划分为含“的”最长名词短语和不含“的”最长名词短语。本文在全面调查含“的”最长名词短语的内部结构、句法分布、线性分布的基础上,提出了“先识别右边界,识别成果再参与左边界识别”的研究策略,系统地研究了该短语的自动识别问题。 本文的研究内容主要包括两个部分:一部分是含“的”字短语的最长名词短语的自动识别,全面分析了该短语左右边界的不同特征,并基于边界分布概率的方法分别识别了其右边界和左边界;另一部分是含“的”字偏正结构的最长名词短语的自动识别,同样探讨了该短语的边界特征,在此基础上将识别短语转化为识别句法主语和宾语的问题;该部分采用边界分布概率的方法识别右边界,并提出了基于搭配的左边界识别方法,其中纳入了介词框架、介动搭配、介宾搭配、动宾搭配等四种搭配类型。 本文采用组合模型和规则指导的训练算法缓解数据稀疏的问题。组合模型通过向条件子概率,相关频次,语义类等历史等价类的回退大大优化了模型参数;由于训练语料提供的搭配数量极为有限,规则指导的训练算法通过人工制定的三条规则从测试语料中直接提取搭配数据,使系统开放测试的召回率提高了27%以上。 实验基于64万字的新闻语料进行训练,并在32万字的同质语料上进行了开放测试。整个识别系统获得了70.42%的调和平均值。从识别策略上看,右边界识别正确标注了91%以上的对象,为左边界识别提供了较好的基础;左边界识别获得了76.16%的调和平均值,并且随着搭配数据质量的提高,系统预期还能够取得更好的识别效果。
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:H146.3

【相似文献】
中国期刊全文数据库 前10条
1 邢富坤;;多语种语言资源的建设原则与方法[J];现代教育技术;2011年05期
2 汪梦翔;;关联词离析度在有标复句层次自动分析中的应用[J];云南师范大学学报(哲学社会科学版);2011年04期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 杜青;刘剑飞;刘娟;乔延华;;基于小波神经网络的模拟调制信号自动识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
2 郑凯;张淑仪;张辉;蔡士杰;;超声红外热像中缺陷的自动识别[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 邹渊;;车号识别系统在非标车辆电子轨道衡中的应用[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
4 王立公;;热轧带钢头尾形状自动识别及最佳剪切系统[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年
5 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 黄习刚;;AIS岸站数据链路管理机制[A];2008-2009年船舶通信导航论文集[C];2009年
7 毛文华;郑永军;张银桥;苑严伟;张小超;;基于机器视觉的草地蝗虫识别方法[A];2007年中国农业工程学会学术年会论文摘要集[C];2007年
8 冯敏萱;杨翠兰;陈小荷;;带后缀“者”的派生词识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘磊;高太长;李浩;;三种基于光学原理的降水类型识别技术[A];中国气象学会2006年年会“提高大气监测自动化水平、为业务技术体制改革作贡献”分会场论文集[C];2006年
10 廖铭胜;;浅谈AIS在VTS中的应用[A];中国航海学会通信导航专业委员会2006年学术年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 王萍;讯宝凯泰联手出击自动识别市场[N];中国税务报;2006年
2 欧汉华;广东启用新型自动识别仪[N];人民公安报·交通安全周刊;2006年
3 康君;“洋盘”哦 投币箱自动识别假币[N];雅安日报;2007年
4 通讯员 姚蓓记者 秦宵喊;表格自动识别为出口退税提速[N];南京日报;2008年
5 记者 王量迪 通讯员 黄章伟 徐根凯;我市渔港将配上电子警察[N];宁波日报;2008年
6 吴恂王彭军;广东局试点“电子耳标”自动识别[N];中国国门时报;2007年
7 周淑芳;中州分公司计量检斤实现自动识别[N];中国有色金属报;2006年
8 吴宏雄;欠费车上路将被抓拍[N];福建日报;2008年
9 史晓涵 赵永生 张军辉;河北乐亭民警自主研发抓逃软件[N];人民公安报;2009年
10 郑杨;十大科技亮点打造北京智能交通[N];经济日报;2008年
中国博士学位论文全文数据库 前10条
1 严哲;三维地震断层自动识别与智能解释[D];中国地质大学;2010年
2 黄伏生;喇嘛甸油田低效无效循环带识别方法研究及其应用[D];中国海洋大学;2008年
3 郑华利;彩色地形图的自动识别与矢量化研究[D];南京理工大学;2004年
4 李河;基于构件复用的测井解释系统及成像测井图像处理与自动识别技术研究[D];吉林大学;2005年
5 杜军;盾构隧道壁后注浆探测图像识别及沉降控制研究[D];同济大学;2006年
6 王向东;抓举技术的生物力学研究及杠铃杆端点的自动识别[D];北京体育大学;2006年
7 罗小虎;蛋白质—蛋白质骨架柔性对接研究[D];苏州大学;2011年
8 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
9 辛动军;彩色地形图要素的自动识别与获取研究[D];南京理工大学;2007年
10 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
中国硕士学位论文全文数据库 前10条
1 钱小飞;含“的”最长名词短语的自动识别[D];南京师范大学;2007年
2 叶其松;NP构句块的模式化及自动识别[D];黑龙江大学;2004年
3 王立冬;软件无线电理论研究与软件无线电侦察接收机设计[D];东北大学;2006年
4 李茁;机车信号自动识别与解调算法研究[D];哈尔滨工程大学;2007年
5 于坤;织物疵点识别算法的研究[D];天津工业大学;2008年
6 邵蕊;指针式仪表识别方法的研究[D];沈阳工业大学;2009年
7 郭绍君;全球统一标识系统在食品冷链中的应用研究[D];北京交通大学;2009年
8 胥勋涛;印鉴自动识别系统算法研究[D];重庆大学;2004年
9 雷兴;地区电网故障恢复操作票的实用化研究[D];华北电力大学(北京);2006年
10 任玉静;常用数字信号调制样式的自动识别[D];河北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026