收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于CRF模型的汉语介词短语识别

胡思磊  
【摘要】: 介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。 本文首先指出了当前完全语法分析的困难,并介绍了介词短语识别的研究现状及技术路线,提出了汉语介词短语识别的重要性和可行性。在研究过程中,本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,尝试在浅层句法分析这个阶段识别介词短语。由于CRF具有表达元素长距离依赖性和交叠性特征的能力,并且介词短语的平均词长比较长,决定采用CRF模型来识别介词短语。首先考虑采用基于CRF单层模型来识别介词短语,在实验分析中发现嵌套介词短语、跨越分句的介词和有歧义的介词短语识别错误导致整个识别精确率不高,后面两类介词短语识别难度较大,不重点研究。本文只针对嵌套介词短语识别错误提出了一种基于CRF的层次结构来识别介词短语。据统计发现,在大量文本出现的都是两层嵌套,三层嵌套在文本中的比例很少,所以只需用基于CRF双层模型来识别介词短语。第一层CRF识别无嵌套介词短语和嵌套介词短语的内层部分,第二层CRF识别嵌套介词短语的外层部分,之后将两层结果合并,最后用规则进行后续处理。 实验表明,利用基于CRF双层模型的方法来识别中文介词短语是有效的;系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到90.08%。和当前同类文献相比,本识别系统取得比较好的识别结果。由于介词短语结构上和动词短语有相似之处,它的研究可以为动词性短语的研究提供某种启示。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈丽江;陈小荷;;VN结构识别的一种概率分布模型[J];计算机工程与应用;2009年17期
2 赵军;黄昌宁;;基于例子的基本名词短语识别中词语分布相似度的研究[J];模式识别与人工智能;1998年02期
3 冯丽萍;焦莉娟;;基于最大熵的中文组织机构名识别模型[J];计算机与数字工程;2010年12期
4 齐浩亮,杨沐昀,孟遥,韩习武,赵铁军;面向特定领域的汉语句法主干分析[J];中文信息学报;2004年01期
5 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
6 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
7 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
8 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
9 傅立云;刘新;;基于词典的汉语自动分词算法的改进[J];情报杂志;2006年01期
10 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
11 贾君枝;邰杨芳;;FrameNet的语义类型研究[J];情报理论与实践;2007年05期
12 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
13 程彩虹;王惠临;解国栋;;基于潜在语义分析的自动词法学习技术[J];情报理论与实践;2008年05期
14 李波;邱锡鹏;曹均阔;;查询扩展在开放领域问答系统中的应用[J];计算机应用与软件;2009年07期
15 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
16 马连刚;夏克俭;;中医方剂与图集的转换的设计与实现[J];网络安全技术与应用;2010年02期
17 仲夏;张志平;王惠临;;词汇化树邻接语法研究述评及中文应用初探[J];现代图书情报技术;2010年05期
18 麦范金;岳晓光;赵子强;路英;王挺;岳砥柱;;基于自然语言处理的智能评分系统[J];桂林理工大学学报;2010年03期
19 朱译翔;;中文名词性谓词的语义角色标注的研究[J];福建电脑;2010年09期
20 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
中国重要会议论文全文数据库 前10条
1 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
3 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
5 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 庞文斌;张国煊;曹恬;;基于规则和统计的汉语浅层句法分析的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
10 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
3 葛诗利;面向大学英语教学的通用计算机作文评分和反馈方法研究[D];北京语言大学;2008年
4 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
5 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
6 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
7 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
8 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
9 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
10 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
中国硕士学位论文全文数据库 前10条
1 胡思磊;基于CRF模型的汉语介词短语识别[D];大连理工大学;2008年
2 于静;汉语句子的组块识别研究[D];大连理工大学;2008年
3 罗雪兵;汉语组块识别的研究[D];大连理工大学;2007年
4 马龙;基于条件随机域模型的中文地名识别的研究[D];大连理工大学;2009年
5 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
6 肖清梅;汉语组块识别的研究与应用[D];大连理工大学;2009年
7 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
8 徐亮;中文新词识别研究[D];大连理工大学;2009年
9 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
10 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
中国重要报纸全文数据库 前10条
1 王琳琳 记者 聂乔;市学联召开第十一次代表大会[N];大连日报;2006年
2 首席记者 刘海鹰;市校科技合作实现双赢[N];盘锦日报;2007年
3 本报记者 王荣琦黄宝锋;最有可能汗水让我们的梦想越来越清晰[N];辽宁日报;2008年
4 ;大连理工大学——培养少数民族人才 促进民族团结进步[N];中国民族报;2005年
5 姚化成 任晶惠;数百“洋大学”纷涌大连高等学府[N];大连日报;2005年
6 罗冰;校企合作,路该怎么走?[N];科技日报;2003年
7 田守智;培育高技术 孵化新成果[N];科技日报;2004年
8 ;海洋工程:割舍不下的情结[N];科技日报;2005年
9 魏宇娜;英特尔建厂人才储备先行[N];大连日报;2007年
10 许梅杰;投身“五点一线”勇立碧海潮头[N];中国高新技术产业导报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978