收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

有标记联合结构的自动识别

王东波  
【摘要】: 有标记联合结构的自动识别将为汉语树库的构建做好预处理工作,提高句法分析器的工作效率,同时该识别成果可以直接应用于机器翻译、信息抽取等领域。以往对有标记联合结构的研究大部分是进行理论探讨,少部分的自动识别研究也是针对比较简单的联合结构。本文在为构建汉语树库做好联合结构预处理的前提下,基于大规模语料库用规则和统计的方法分别对有标记联合结构进行了自动识别的研究。 统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布、词与短语的序列分布、联合结构的长度分布以及联合结构的联合标记。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方为从语言学的角度量化地研究联合结构提供了精确的数据。 根据联合结构的结构平行性和中心语相似性这一特征对联合结构用基于规则的方法进行了识别,由于词语语义计算缺乏量化和精确化、词性规则模板颗粒度过于粗糙,识别效果非常不理想,单层单标记联合结构的封闭测试和开放测试最好的调和平均值分别为62.52%和57.12%,这证明了在目前的条件下仅仅依靠联合结构的结构平行和中心语相似特征来识别联合结构的方法基本上是行不通的。 本文详细介绍了CRF提出的背景、基本原理以及在中文信息处理中的应用,并用该模型对有标记联合结构进行了自动识别。分别用基于复杂特征的特征模板和增加语言学特征的特征模板在含有嵌套的联合结构、无嵌套联合结构和最长联合结构语料上进行了实验,封闭测试和开放测试调和平均值最高分别达到:99.17%和88.21%;99.99%和87.85%;99.98%和84.42%。这说明用基于统计的方法无论在识别的效率还是在识别的结果上都要比用基于规则的方法优越。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张涛,杨尔弘;基于上下文词语同现向量的词语相似度计算[J];电脑开发与应用;2005年03期
2 张榕;;术语定义的聚类研究[J];中国科技术语;2011年01期
3 康恒;梁永强;;面向语义相似度的语义距离计算方法介绍及分析[J];才智;2010年23期
4 陈春明;徐义峰;;一种基于语义度量的知识本体映射方法[J];商场现代化;2008年15期
5 王金铨;;汉译英自动评分系统中的语义相似度比较研究[J];外语测试与教学;2011年04期
6 文学志;宣恒农;彭胜;;基于语义相似度的SCORM学习资源整合[J];计算机工程与应用;2006年17期
7 荀恩东;颜伟;;基于语义网计算英语词语相似度[J];情报学报;2006年01期
8 王宝勋;王晓龙;刘秉权;李鹏;;一种基于无监督学习的词变体识别方法[J];中文信息学报;2008年03期
9 王金铨;文秋芳;;国内外机器自动评分系统评述——兼论对中国学生翻译自动评分系统的启示[J];外语界;2010年01期
10 田艳;;网上英译汉自动评分实践探索[J];中国翻译;2011年02期
11 穗志方,俞士汶;面向EBMT的汉语单句谓语中心词识别研究[J];中文信息学报;1998年04期
12 刘颖;对汉语切分的基于规则的错误驱动学习[J];清华大学学报(哲学社会科学版);1999年01期
13 陈建生;语篇的自动词性附码[J];当代语言学;1998年01期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 刘晓平;沈冠町;;协同讨论观点影响度分析方法及其应用[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 黄佳来;王立波;袁道敏;;基于语义相似度的查询扩展研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
4 王东波;陈小荷;年洪东;;有标记联合结构的语言学特征统计分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 刘立;余正涛;王蒙;毛存礼;郭剑毅;;结合词相关特征与流行学习的中文问句分类[A];第六届全国信息检索学术会议论文集[C];2010年
8 章成志;章成敏;王萍;;基于语义的同义词识别算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 骆正华;;基于E-Chunk问句实例库问答系统的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
2 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
3 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
4 潘建国;基于语义的用户建模技术与应用研究[D];上海大学;2009年
5 胡晓;支持机械产品概念设计的功能知识聚类方法研究[D];上海交通大学;2011年
6 李宏伟;基于Ontology的地理信息服务研究[D];解放军信息工程大学;2007年
7 魏军英;基于WEB服务的中小企业制造资源共享关键技术研究[D];山东科技大学;2011年
8 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
9 杨峰;本体映射关键技术研究[D];吉林大学;2011年
10 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 王东波;有标记联合结构的自动识别[D];南京师范大学;2008年
2 郑丽萍;本体映射的研究[D];山东科技大学;2005年
3 张红宇;数据集成中本体映射的研究[D];中南大学;2005年
4 常晓环;基于概念图的语义检索方法研究[D];吉林大学;2009年
5 任波;基于语义的Web服务发现研究[D];浙江工业大学;2005年
6 秦鹏;基于WordNet的本体匹配关键技术研究与实现[D];华东师范大学;2010年
7 郭嘉琦;领域本体的构建及其在信息检索中的应用研究[D];北京邮电大学;2007年
8 陈爱明;本体复合映射发现技术研究[D];中南大学;2008年
9 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
10 关淞元;本体匹配算法的研究[D];吉林大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978