收藏本站
《哈尔滨工业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

统计中文词法分析及其强化学习机制的研究

姜维  
【摘要】: 词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。本文研究的汉语词法分析主要包括自动分词、词性标注和中文命名实体识别三个方面。词法分析作为基础处理步骤,先期的错误会沿处理链条扩散,并最终影响信息检索、问答系统、机器翻译等面向最终用户的应用系统的质量。同时,词法分析中的三个子任务作为其它一些相关语言处理的典型代表,对其所用的技术也可有助于处理其它相似任务中,如音字转换、组块分析以及生物信息处理等,所以对它的研究具有极其重要的意义。 影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。本文利用统计方法致力于改善词法分析的性能。从模型角度来看,本文在有监督方法上主要探讨了N-gram模型、最大熵模型、条件随机域模型和支持向量机模型;无监督方法上探讨了词向量空间模型;强化学习机制上,研究人工免疫理论以及面向自治计算理论。从特征抽取角度,建立了粗糙集挖掘复杂特征的方法,利用触发对方法抽取命名实体的特征等。并利用以上研究成果对汉语词法分析进行了深入研究。主要研究内容包括以下几个方面: 第一,基于条件随机域模型建立中文词性标注模型。隐马尔科夫模型(HMM)是产生式模型,不易融入丰富的特征,相比之下,最大熵马尔科夫模型(MEMM)是条件概率模型允许特征非独立,并允许增加各种颗粒度的特征,但它对每个状态均定义一个指数模型来计算在给定当前状态时下一状态的条件概率,因而存在标注偏置问题。本文引入条件随机域模型(CRF)处理中文词性标注任务,它仅使用一个指数模型来计算在给定观察值序列条件下整个标号序列的条件概率,可有效克服标注偏置问题。在此基础上,引入触发对特征进一步改善标注的性能。此外,又探索中文组块特征在词性标注任务中的作用,接着考察了支持向量机模型在序列标记问题中的高效处理方法,并将其用于处理音字转换任务。最后研究了采用多分类器组合方法处理中文词性标注问题。 第二,基于最大熵模型进行中文命名实体识别研究。最大熵模型(ME)是条件概率模型,易于融入丰富的特征。近些年的评测已经表明其在命名实体识别任务上具有较好的性能,据此,本文研究了最大熵命名实体识别模型中的特征抽取方法,以及联合词向量空间模型与同义词词典进行特征扩展的方法。然后在此基础上,针对中文的特点,进一步提出了双层混合模型的中文命名实体识别方法。此外,常见的命名实体识别算法都是以句子为单位,在整个语句范围内抽取上下文特征。对此,在借鉴无监督学习方法的基础上,我们提出领域扩展学习的策略,能够有效地利用段落及篇章特征来提高实体识别的性能。 第三,引入粗糙集理论提取复杂特征。传统的基于模板的特征抽取方法难以获取复杂特征,为了能够有效地利用上下文特征,本文引入扩展的粗糙集理论抽取复杂特征。因考虑到该方法只是按照粗规则精度区分规则的重要程度,在联合其它特征采集方法时并未按总体性能为其分配权重,我们将粗规则特征融入最大熵模型中,通过最大熵模型为粗规则特征分配权重使得模型的整体性能最优。此外,针对自然语言中决策属性值存在分布不均匀的问题,我们又引入可变精度粗糙集理论来进一步改善消歧性能。 第四,研究词法分析中强化学习机制的理论和方法。基于语料库的有监督方法通常面临着数据稀疏问题与独立同分布条件假设。由于语料库中的数据分布一般符合Zipf定律,所以数据稀疏问题难以通过增大语料库获得解决,而在实际应用时,其数据与训练数据往往由于属于不同的应用领域,因而又不易满足独立同分布的假设。许多任务处理中,上述两个困难成为现有有监督方法性能进一步提高的障碍。在现有有监督方法的性能几乎接近其上限的情况下,本文面向词法分析技术对于如何有效地利用使用过程中的反馈信息实现在线学习进行了深入的研究,丰富了语言处理方法的理论。针对现实应用时的反馈信息呈现“局部感知”的特性,往往不严格满足分布特性,本文深入研究了局部感知的在线学习,并建立基于克隆选择理论的中文人名识别模型、基于人工免疫网络和面向自治计算的中文分词、词性标注与音字转换模型。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.1

手机知网App
【引证文献】
中国博士学位论文全文数据库 前2条
1 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前2条
1 刘晓军;层次型文本分类阻塞问题研究[D];哈尔滨工业大学;2009年
2 朱善宗;面向情感分析的特征抽取技术研究[D];哈尔滨工业大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 张泽明;罗文坚;王煦法;;一种基于人工免疫的多层垃圾邮件过滤算法[J];电子学报;2006年09期
2 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
3 董启文,王晓龙,林磊,关毅,赵健;蛋白质二级结构预测:基于词条的最大熵马尔科夫方法[J];中国科学C辑:生命科学;2005年01期
4 朱凤石;基于人工神经网络的汉语兼类处理方法的研究[J];计算机研究与发展;1998年04期
5 刘克胜,张军,曹先彬,王煦法;一种基于免疫原理的自律机器人行为控制算法[J];计算机工程与应用;2000年05期
6 赵健,王晓龙,关毅;中文名实体识别中的特征组合与特征融合的比较[J];计算机应用;2005年11期
7 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
8 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
9 孙宏林,陆勤,俞士汶;利用遗传算法实现词类标记集的优化[J];中文信息学报;2001年01期
10 张子荣,初敏;解决多音字字-音转换的一种统计学习方法[J];中文信息学报;2002年03期
中国博士学位论文全文数据库 前1条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 黄险峰;;按隔声要求的组合墙体各构件面积反演[J];四川建筑科学研究;2008年03期
2 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
3 鱼静,戴宗友;一种基于免疫原理的入侵检测系统模型[J];安徽电子信息职业技术学院学报;2004年Z1期
4 尹峰,邓小鹏,许四毛;生物免疫机理在计算机安全领域的应用与发展[J];安徽电子信息职业技术学院学报;2004年Z1期
5 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
6 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
7 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
8 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
9 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
10 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
3 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
5 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
6 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
7 刘智勇;马凤伟;;城市交通信号的在线强化学习控制[A];第二十六届中国控制会议论文集[C];2007年
8 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
9 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
10 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
5 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
6 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
7 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
8 岑健;基于人工免疫系统的机组复合故障诊断技术研究[D];华南理工大学;2010年
9 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
10 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
4 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
7 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
8 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
9 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
10 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
3 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
4 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
5 董启文,王晓龙,林磊,关毅,赵健;蛋白质二级结构预测:基于词条的最大熵马尔科夫方法[J];中国科学C辑:生命科学;2005年01期
6 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
7 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
8 李珩,朱靖波,姚天顺;基于Stacking算法的组合分类器及其应用于中文组块分析[J];计算机研究与发展;2005年05期
9 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
10 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
中国博士学位论文全文数据库 前2条
1 李素建;汉语组块计算的若干研究[D];中国科学院研究生院(计算技术研究所);2002年
2 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前2条
1 胡翔;层次文本分类中阻塞减少策略的研究[D];东南大学;2006年
2 王璟琦;基于内容单元的网页解析与内容提取[D];哈尔滨工业大学;2008年
【二级引证文献】
中国期刊全文数据库 前2条
1 杨明;舒明雷;顾卫东;郭强;周书旺;;基于超算平台的公共Wi-Fi无线网络无痕信息获取与舆情分析系统研究[J];计算机科学;2013年03期
2 王洪伟;郑丽娟;尹裴;史伟;;在线评论的情感极性分类研究综述[J];情报科学;2012年08期
中国博士学位论文全文数据库 前3条
1 杨先明;0-5岁汉语儿童语言发展的认知研究[D];武汉大学;2010年
2 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
3 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前5条
1 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年
2 孙慧;基于组块分析的中文短语情感倾向研究[D];哈尔滨工业大学;2010年
3 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
4 李超;基于Web的实例知识条目自动构建方法[D];哈尔滨工业大学;2010年
5 唐俊;复杂网络在网络新闻信息处理中的应用研究[D];西南交通大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
2 李蕾,钟义信;自动文摘系统中基于全信息词典的复杂语句分析方法及其实现[J];电子学报;2000年08期
3 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
4 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
5 荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期
6 刘宗旨,王建龙,王群,黄勋,徐卫辉,朱立煌,何平,方荣祥;水稻Osgrp-2基因的结构、表达特性和染色体定位[J];中国科学(C辑:生命科学);2003年03期
7 颜宏利,宋云龙,刘凡,贺艳,孙树汉;膜联蛋白AnxB1的同源模建及降低免疫原性研究[J];中国科学C辑:生命科学;2004年01期
8 程凌鹏,陈森雄,Jenifer Brannan,Joanita Jakana,张勤奋,周正洪,张景强;伊蚊C6/36细胞浓核病毒蛋白衣壳三维结构的测定[J];中国科学C辑:生命科学;2004年01期
9 周鹏,谢明勇,聂少平,王小如;茶多糖TGC的结构表征[J];中国科学(C辑:生命科学);2004年02期
10 关英春;秦蓓;;汉字自动统计系统CWSS[J];计算机研究与发展;1985年12期
【相似文献】
中国期刊全文数据库 前10条
1 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
2 吴启明;陈昊;;核聚类人工免疫网络模型的设计[J];电脑知识与技术;2009年26期
3 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
4 段军峰;黄维通;陆玉昌;;中文网页分类研究与系统实现[J];计算机科学;2007年06期
5 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
6 王巍巍;陈兴国;高阳;;一种结合Tile Coding的平均奖赏强化学习算法[J];模式识别与人工智能;2008年04期
7 张向锋;王致杰;;一种基于免疫聚类算法的数据分类[J];上海电机学院学报;2011年01期
8 杜国文,鲁长元;数控机床加工语言的解释程序设计与实现[J];工科数学;1995年02期
9 徐志明,王晓龙,关毅;汉语大词表N-gram统计语言模型构造算法[J];计算机应用研究;1999年06期
10 高升,徐志明;统计语言模型中词的自动聚类技术研究[J];计算机工程与应用;2003年11期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 孟凡东;徐金安;姜文斌;刘群;;平仄信息对中文词法分析的影响[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
6 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
7 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
8 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
10 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
中国博士学位论文全文数据库 前10条
1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
2 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
3 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
4 金钊;加速强化学习方法研究[D];云南大学;2010年
5 杨茂龙;相关投影分析在特征抽取中的应用研究[D];南京理工大学;2011年
6 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
7 徐明亮;强化学习及其应用研究[D];江南大学;2010年
8 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
9 李中;基于人工免疫系统的电力变压器故障诊断技术研究[D];华北电力大学(河北);2010年
10 陈岳兵;面向入侵检测的人工免疫系统研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
4 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
5 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
6 杜新凯;基于人工免疫网络的强化学习机制研究[D];哈尔滨工业大学;2007年
7 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
8 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
9 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
10 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026