收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

统计中文词法分析及其强化学习机制的研究

姜维  
【摘要】: 词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。本文研究的汉语词法分析主要包括自动分词、词性标注和中文命名实体识别三个方面。词法分析作为基础处理步骤,先期的错误会沿处理链条扩散,并最终影响信息检索、问答系统、机器翻译等面向最终用户的应用系统的质量。同时,词法分析中的三个子任务作为其它一些相关语言处理的典型代表,对其所用的技术也可有助于处理其它相似任务中,如音字转换、组块分析以及生物信息处理等,所以对它的研究具有极其重要的意义。 影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。本文利用统计方法致力于改善词法分析的性能。从模型角度来看,本文在有监督方法上主要探讨了N-gram模型、最大熵模型、条件随机域模型和支持向量机模型;无监督方法上探讨了词向量空间模型;强化学习机制上,研究人工免疫理论以及面向自治计算理论。从特征抽取角度,建立了粗糙集挖掘复杂特征的方法,利用触发对方法抽取命名实体的特征等。并利用以上研究成果对汉语词法分析进行了深入研究。主要研究内容包括以下几个方面: 第一,基于条件随机域模型建立中文词性标注模型。隐马尔科夫模型(HMM)是产生式模型,不易融入丰富的特征,相比之下,最大熵马尔科夫模型(MEMM)是条件概率模型允许特征非独立,并允许增加各种颗粒度的特征,但它对每个状态均定义一个指数模型来计算在给定当前状态时下一状态的条件概率,因而存在标注偏置问题。本文引入条件随机域模型(CRF)处理中文词性标注任务,它仅使用一个指数模型来计算在给定观察值序列条件下整个标号序列的条件概率,可有效克服标注偏置问题。在此基础上,引入触发对特征进一步改善标注的性能。此外,又探索中文组块特征在词性标注任务中的作用,接着考察了支持向量机模型在序列标记问题中的高效处理方法,并将其用于处理音字转换任务。最后研究了采用多分类器组合方法处理中文词性标注问题。 第二,基于最大熵模型进行中文命名实体识别研究。最大熵模型(ME)是条件概率模型,易于融入丰富的特征。近些年的评测已经表明其在命名实体识别任务上具有较好的性能,据此,本文研究了最大熵命名实体识别模型中的特征抽取方法,以及联合词向量空间模型与同义词词典进行特征扩展的方法。然后在此基础上,针对中文的特点,进一步提出了双层混合模型的中文命名实体识别方法。此外,常见的命名实体识别算法都是以句子为单位,在整个语句范围内抽取上下文特征。对此,在借鉴无监督学习方法的基础上,我们提出领域扩展学习的策略,能够有效地利用段落及篇章特征来提高实体识别的性能。 第三,引入粗糙集理论提取复杂特征。传统的基于模板的特征抽取方法难以获取复杂特征,为了能够有效地利用上下文特征,本文引入扩展的粗糙集理论抽取复杂特征。因考虑到该方法只是按照粗规则精度区分规则的重要程度,在联合其它特征采集方法时并未按总体性能为其分配权重,我们将粗规则特征融入最大熵模型中,通过最大熵模型为粗规则特征分配权重使得模型的整体性能最优。此外,针对自然语言中决策属性值存在分布不均匀的问题,我们又引入可变精度粗糙集理论来进一步改善消歧性能。 第四,研究词法分析中强化学习机制的理论和方法。基于语料库的有监督方法通常面临着数据稀疏问题与独立同分布条件假设。由于语料库中的数据分布一般符合Zipf定律,所以数据稀疏问题难以通过增大语料库获得解决,而在实际应用时,其数据与训练数据往往由于属于不同的应用领域,因而又不易满足独立同分布的假设。许多任务处理中,上述两个困难成为现有有监督方法性能进一步提高的障碍。在现有有监督方法的性能几乎接近其上限的情况下,本文面向词法分析技术对于如何有效地利用使用过程中的反馈信息实现在线学习进行了深入的研究,丰富了语言处理方法的理论。针对现实应用时的反馈信息呈现“局部感知”的特性,往往不严格满足分布特性,本文深入研究了局部感知的在线学习,并建立基于克隆选择理论的中文人名识别模型、基于人工免疫网络和面向自治计算的中文分词、词性标注与音字转换模型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
2 吴启明;陈昊;;核聚类人工免疫网络模型的设计[J];电脑知识与技术;2009年26期
3 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
4 段军峰;黄维通;陆玉昌;;中文网页分类研究与系统实现[J];计算机科学;2007年06期
5 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
6 王巍巍;陈兴国;高阳;;一种结合Tile Coding的平均奖赏强化学习算法[J];模式识别与人工智能;2008年04期
7 张向锋;王致杰;;一种基于免疫聚类算法的数据分类[J];上海电机学院学报;2011年01期
8 杜国文,鲁长元;数控机床加工语言的解释程序设计与实现[J];工科数学;1995年02期
9 徐志明,王晓龙,关毅;汉语大词表N-gram统计语言模型构造算法[J];计算机应用研究;1999年06期
10 高升,徐志明;统计语言模型中词的自动聚类技术研究[J];计算机工程与应用;2003年11期
11 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
12 刘赛;;人工免疫系统中反向选择算法的改进[J];计算机工程;2005年24期
13 王新洲;许承权;;免疫算法及其在测量数据处理中的应用[J];武汉大学学报(信息科学版);2006年10期
14 王长缨;缪相林;周明全;王聪;;一种元胞自动机规则的免疫自适应调节方法[J];河北工业大学学报;2006年05期
15 刘乐;陈秋艳;王艳秋;;人工免疫系统的研究与应用[J];辽宁工学院学报;2006年05期
16 赵正文;康耀红;;统计语言模型在信息检索中的应用[J];计算机工程与应用;2006年36期
17 谢刚;武斌;谢克明;;基于免疫遗传算法的TSP优化问题求解[J];太原理工大学学报;2007年03期
18 赵丽丽;王艳秋;;人工免疫系统在故障诊断中的应用[J];黑龙江科技信息;2009年03期
19 韦银星,吴锡英;STEP后处理器的设计及实现[J];计算机集成制造系统-CIMS;1997年02期
20 田斌;田红心;易克初;;一种结合声学匹配信息的汉语统计语言模型新方法[J];模式识别与人工智能;1999年04期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 孟凡东;徐金安;姜文斌;刘群;;平仄信息对中文词法分析的影响[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
6 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
7 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
8 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
10 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
2 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
3 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
4 金钊;加速强化学习方法研究[D];云南大学;2010年
5 杨茂龙;相关投影分析在特征抽取中的应用研究[D];南京理工大学;2011年
6 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
7 徐明亮;强化学习及其应用研究[D];江南大学;2010年
8 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
9 李中;基于人工免疫系统的电力变压器故障诊断技术研究[D];华北电力大学(河北);2010年
10 陈岳兵;面向入侵检测的人工免疫系统研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
4 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
5 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
6 杜新凯;基于人工免疫网络的强化学习机制研究[D];哈尔滨工业大学;2007年
7 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
8 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
9 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
10 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978