收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语名词复合短语识别与分类的方法研究

祝慧佳  
【摘要】: 名词复合短语(Noun Compounds, NC)作为语言中一种普遍的语法现象,近年来为自然语言处理领域的人们所关注。目前,对其研究范围主要包括:边界识别、语法分析、语义分析及其分类。本文的主要工作包括汉语名词复合短语的问题域的确定、名词复合短语的边界识别、名词复合短语的类别识别、名词复合短语和命名实体的一体化分析,以及名词复合短语的应用。 本文首先对名词复合短语边界识别进行了研究。使用三种方法对边界进行识别,并对开发集上的识别结果进行比较分析,获得了边界识别的最优模型——基于候选集的最大熵模型。此外,根据名词复合短语的内外部知识(内部知识指短语内部词串属性,外部知识指短语所在上下文环境)提取了由26个特征值构成的特征模板进行模型训练,测试集上F值为89.2%。 对于名词复合短语分类的研究,本文结合汉语中名词复合短语的语义特点及其在语言分析中的应用,构建了一个汉语名词复合短语分类体系。值得一提的是短语级命名实体符合名词复合短语定义,完全可以视为名词复合短语,从而为后文提出的一体化分析系统提供理论依据。短语分类依赖于短语本身的识别,为此本文从两个角度对其进行研究:一是两者共同识别;二是分类基于边界识别。结果表明,共同识别使得短语本身识别准确率下降,而基于短语识别保留了边界识别的准确率的同时使得类别识别效果得到提升。 最后,本文对名词复合短语和命名实体的一体化分析进行了研究。由于命名实体与名词复合短语在组成结构、语法语义特点和应用领域上十分相似,短语级命名实体更是名词复合短语的一部分。为此,对短语级命名实体的识别可依赖于名词复合短语类别的识别。此外,本文还引入了多种扩展命名实体类别,将其应用到实际信息抽取系统中,取得了较好的效果。 对于研究工作中的每一种课题类别,本文都尝试从多角度、以多模型解决问题,以期从研究结果的对比中加深对问题本质的认识,从而优选最适合的模型来搭建名词复合短语分析系统平台。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈笑蓉;秦进;;基于最大熵原理的汉语词义消歧[J];计算机科学;2005年05期
2 徐扬;;基于最大熵模型的汉语隐喻现象识别[J];计算机工程与科学;2007年04期
3 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
4 王宝勋;王晓龙;刘秉权;李鹏;;一种基于无监督学习的词变体识别方法[J];中文信息学报;2008年03期
5 艾山·吾买尔;吐尔根·依步拉音;;基于最大熵的维吾尔语句子边界识别模型[J];计算机工程;2010年06期
6 肖航;第41届国际计算语言联合会在日本召开[J];语言文字应用;2003年03期
7 李艳翠;杨勇;周国栋;朱巧明;;基于支持向量机的英语名词短语指代消解[J];计算机工程;2009年03期
8 贾会强;李永宏;;藏文文本分类器的设计与实现[J];科技致富向导;2010年12期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 李诺;张全;;基于概念属性特征的中文地名识别处理[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
7 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 冯娟娟;李晗静;李生;;基于句法分析的中文语义角色标注实现[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 韩兆红;利用重磁资料进行构造边界识别与弱异常提取的方法研究及应用[D];吉林大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
6 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
7 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 祝慧佳;汉语名词复合短语识别与分类的方法研究[D];哈尔滨工业大学;2007年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
4 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
5 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
6 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
7 付春元;汉语嵌套命名实体识别方法研究[D];黑龙江大学;2011年
8 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
9 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
10 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
中国重要报纸全文数据库 前1条
1 王小龙;新算法可大幅提高图像边界识别效率[N];科技日报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978