收藏本站
《大连理工大学》 2007年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计语言模型的汉语浅层分析研究

高红  
【摘要】: 句法分析是自然语言处理中的重点和难点。针对完整的句法分析在处理大规模真实文本中遇到的困难,许多研究人员尝试着把一个完整的句法分析问题分解为若干个子问题,以逐步降低完整句法分析的难度,提高分析效率。浅层分析就是在这样的发展趋势下出现的一种新的语言处理策略。它致力于识别句子中某些结构相对简单、但在句子组成中意义重要的成分,从而简化句子结构,为句子更深层次的分析提供基础。浅层分析不仅对需要完全句法分析的机器翻译有重要的作用,而且在一些不需要完全句法分析的自然语言处理任务中也有广泛应用,如词典编纂、信息提取、文本分类、文摘生成和问答系统等领域。 随着在语料库基础上发展起来的经验主义方法在自然语言处理中的广泛应用,统计语言模型已经成为当前各项自然语言处理任务中的主流技术。本文在统计方法的基础上对汉语浅层分析进行了研究,主要包括:新词识别,命名实体识别和组块分析。 提出了互信息与串频统计相结合的新词识别方法。识别的新词主要指未登录词中的非命名实体。将单字、单字词及其相邻的多字词列入新词的候选成分,计算候选成分之间的互信息时,融合了成词可信度信息和词长信息,并将串频统计信息加入到可能包含新词的候选字段对应的互信息向量中。该方法可以识别由多字词与单字或多字词与单字词组成的新词,取得了较好的新词识别结果。 命名实体是一种很重要的未登录词。未登录词的存在会造成自动分词的错误,分词错误又会反过来影响未登录词的识别。针对自动分词与命名实体识别之间存在互相影响的矛盾问题,提出了一种基于有向图语言模型的与分词一体化的命名实体识别方法。将普通候选词和命名实体候选词映射为有向图节点,将候选词之间的接续关系映射为有向边。利用N-gram模型为有向边赋以合适的权值,使句子最好的分词方式尽可能对应有向图的最短路径。该一体化方法提高了命名实体识别的精度。 给出了双规则AdaBoost(DR-AdaBoost)分类算法并将其成功应用于汉语组块分析。DR-AdaBoost算法在每次迭代中将双规则(最优弱分类规则和次优弱分类规则)线性组合作为评价标准.在UCI数据集和CoNLL-2000共享数据集(英语组块分析)上的测试结果表明、该算法与AdaBoost算法相比,收敛速度快且分类精度高。在汉语组块分析任务中,DR-AdaBoost算法提高了组块分析的精度。DR-AdaBoost算法还可以应用于其它自然语言处理任务或其它分类问题中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
2 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
3 黄永文;何中市;王海燕;;基于时间序列分析的动态分布平滑方法[J];电子学报;2008年S1期
4 代建英,何中市;基于词性信息的汉语时间语词消歧算法[J];重庆大学学报(自然科学版);2005年09期
5 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
6 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
7 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
8 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
9 刘启和;詹思瑜;杨国纬;;基于统计语言模型的双向词类标注方法[J];计算机科学;2003年09期
10 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
11 赵敏涯;沈洁;陈志敏;林颖;;一种新的自动文本分类的算法[J];扬州大学学报(自然科学版);2006年01期
12 赵敏涯;;结合语言模型的自动文本分类的应用研究[J];计算机与现代化;2010年03期
13 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
14 李纲;郑重;;应用于信息检索的统计语言模型研究进展[J];情报理论与实践;2008年03期
15 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
16 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
17 王浩畅;赵铁军;于浩;;生物文本中蛋白质名称的识别[J];计算机应用研究;2007年01期
18 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
19 娜步青;;基于统计的蒙汉机器翻译系统研究[J];内蒙古农业大学学报(自然科学版);2005年04期
20 孟伟涛;张蕾;张晓孪;李海军;;一种基于位置概率模型的中文人名识别方法[J];计算机应用与软件;2008年04期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
3 庞文斌;张国煊;曹恬;;基于规则和统计的汉语浅层句法分析的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
7 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
9 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
2 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
3 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
6 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
7 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
8 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
5 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
6 马龙;基于条件随机域模型的中文地名识别的研究[D];大连理工大学;2009年
7 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
8 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
9 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
10 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978