收藏本站
《大连理工大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计语言模型的汉语浅层分析研究

高红  
【摘要】: 句法分析是自然语言处理中的重点和难点。针对完整的句法分析在处理大规模真实文本中遇到的困难,许多研究人员尝试着把一个完整的句法分析问题分解为若干个子问题,以逐步降低完整句法分析的难度,提高分析效率。浅层分析就是在这样的发展趋势下出现的一种新的语言处理策略。它致力于识别句子中某些结构相对简单、但在句子组成中意义重要的成分,从而简化句子结构,为句子更深层次的分析提供基础。浅层分析不仅对需要完全句法分析的机器翻译有重要的作用,而且在一些不需要完全句法分析的自然语言处理任务中也有广泛应用,如词典编纂、信息提取、文本分类、文摘生成和问答系统等领域。 随着在语料库基础上发展起来的经验主义方法在自然语言处理中的广泛应用,统计语言模型已经成为当前各项自然语言处理任务中的主流技术。本文在统计方法的基础上对汉语浅层分析进行了研究,主要包括:新词识别,命名实体识别和组块分析。 提出了互信息与串频统计相结合的新词识别方法。识别的新词主要指未登录词中的非命名实体。将单字、单字词及其相邻的多字词列入新词的候选成分,计算候选成分之间的互信息时,融合了成词可信度信息和词长信息,并将串频统计信息加入到可能包含新词的候选字段对应的互信息向量中。该方法可以识别由多字词与单字或多字词与单字词组成的新词,取得了较好的新词识别结果。 命名实体是一种很重要的未登录词。未登录词的存在会造成自动分词的错误,分词错误又会反过来影响未登录词的识别。针对自动分词与命名实体识别之间存在互相影响的矛盾问题,提出了一种基于有向图语言模型的与分词一体化的命名实体识别方法。将普通候选词和命名实体候选词映射为有向图节点,将候选词之间的接续关系映射为有向边。利用N-gram模型为有向边赋以合适的权值,使句子最好的分词方式尽可能对应有向图的最短路径。该一体化方法提高了命名实体识别的精度。 给出了双规则AdaBoost(DR-AdaBoost)分类算法并将其成功应用于汉语组块分析。DR-AdaBoost算法在每次迭代中将双规则(最优弱分类规则和次优弱分类规则)线性组合作为评价标准.在UCI数据集和CoNLL-2000共享数据集(英语组块分析)上的测试结果表明、该算法与AdaBoost算法相比,收敛速度快且分类精度高。在汉语组块分析任务中,DR-AdaBoost算法提高了组块分析的精度。DR-AdaBoost算法还可以应用于其它自然语言处理任务或其它分类问题中。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 宋静;SVM与AdaBoost算法的应用研究[D];大连海事大学;2011年
2 孙瑞娜;基于最大熵的哈萨克语基本名词短语识别研究[D];新疆大学;2011年
【参考文献】
中国期刊全文数据库 前5条
1 谭红叶,郑家恒,刘开瑛;基于变换的中国地名自动识别研究(英文)[J];软件学报;2001年11期
2 李 沐,吕学强,姚天顺;一种基于E-Chunk的机器翻译模型[J];软件学报;2002年04期
3 陈玉泉,顾顺莲,陆汝占;计算机辅助新词新语词典的编纂[J];上海交通大学学报;2000年07期
4 张则桥;外国人姓名的结构形式及识别[J];世界文化;2003年02期
5 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
中国硕士学位论文全文数据库 前1条
1 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 苗长芬,冯伟华;面向主题Crawler的设计与实现[J];平原大学学报;2005年03期
2 张晓宇;;从生态语言学的角度看蒙古族语言文化的发展[J];前沿;2010年13期
3 王华栋;饶培伦;;基于搜索引擎的中文分词评估方法[J];情报科学;2007年01期
4 谌志群;张国煊;;文本挖掘与中文文本挖掘模型研究[J];情报科学;2007年07期
5 曹艳;杜慧平;刘竟;侯汉清;;基于词表和N-gram算法的新词识别实验[J];情报科学;2007年11期
6 杜慧平;何琳;;基于聚类的词表等级关系自动识别研究[J];情报科学;2008年11期
7 吕美香;何琳;李玥;杨敏;张越;;基于N-Gram文本表达的新闻领域关键词词典构建研究[J];情报科学;2010年04期
8 刘伟成;张志清;孙吉红;;基于KCCA的跨语言专利信息检索研究[J];情报科学;2010年05期
9 阮光册;;基于文本挖掘的网络新闻报道差异分析[J];情报科学;2012年01期
10 潘正高;;基于规则和统计相结合的中文命名实体识别研究[J];情报科学;2012年05期
中国重要会议论文全文数据库 前10条
1 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
2 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 王春林;;灰熔点预测建模研究[A];中国自动化学会控制理论专业委员会B卷[C];2011年
4 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 李小红;李寅;谢成明;;基于连续Adaboost彩色图像人脸检测算法[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
6 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 匡海波;李斌;王嘉灵;王帅;陈小荷;;汉英词汇隐喻属性的对比分析与互增益技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 李颖玉;基于语料库的欧化翻译研究[D];上海外国语大学;2010年
2 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
3 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
4 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
5 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
6 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
7 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
8 汪澎;驾驶人警觉状态检测技术研究[D];江苏大学;2010年
9 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
10 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 马冉冉;集成学习算法研究[D];山东科技大学;2010年
3 王萍;语音情感识别研究[D];山东科技大学;2010年
4 肖伟;上海市老年乒乓球运动开展现状的调查研究[D];上海体育学院;2010年
5 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
6 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
7 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
8 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
9 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
10 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前2条
1 蒋焰;丁晓青;;基于多步校正的改进AdaBoost算法[J];清华大学学报(自然科学版)网络.预览;2008年10期
2 刁力力 ,胡可云 ,陆玉昌 ,石纯一;用Boosting方法组合增强Stumps进行文本分类(英文)[J];软件学报;2002年08期
中国重要会议论文全文数据库 前2条
1 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 阿布都热依木·热合曼;艾山·吾买尔;吐尔根·依布拉音;帕里旦·吐尔逊;哈里旦木·阿布都克里木;;维吾尔语句法树库标注体系[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
中国硕士学位论文全文数据库 前9条
1 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
2 忻栋;支持向量机算法的研究及在说话人识别上的应用[D];浙江大学;2002年
3 于浚涛;基于最大熵的汉语介词短语自动识别[D];大连理工大学;2006年
4 王莹莹;汉语组块识别的研究[D];大连理工大学;2006年
5 罗雪兵;汉语组块识别的研究[D];大连理工大学;2007年
6 杨波;基于支持向量机的中学教师评价系统研究[D];东北师范大学;2008年
7 郑相娜;基于改进支持向量机的信用卡客户细分模型[D];浙江工商大学;2010年
8 袁方;基于1(1/2)维谱熵与支持向量机的滚动轴承故障诊断研究[D];湖南科技大学;2010年
9 叶琳;基于SVM的网络流量异常检测系统研究[D];云南大学;2010年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 况梦杰;视频序列运动人体检测方法研究[D];燕山大学;2012年
【二级参考文献】
中国期刊全文数据库 前5条
1 孙茂松,左正平,黄昌宁;消解中文三字长交集型分词歧义的算法[J];清华大学学报(自然科学版);1999年05期
2 周强,孙茂松,黄昌宁;汉语最长名词短语的自动识别[J];软件学报;2000年02期
3 谭红叶,郑家恒,刘开瑛;基于变换的中国地名自动识别研究(英文)[J];软件学报;2001年11期
4 陈小荷;;“把…HVP”的计算分析[J];世界汉语教学;2002年01期
5 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
中国重要会议论文全文数据库 前3条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 郑家恒;杨晓岩;;英文译名自动识别方法研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
2 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
3 黄永文;何中市;王海燕;;基于时间序列分析的动态分布平滑方法[J];电子学报;2008年S1期
4 代建英,何中市;基于词性信息的汉语时间语词消歧算法[J];重庆大学学报(自然科学版);2005年09期
5 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
6 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
7 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
8 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
9 刘启和;詹思瑜;杨国纬;;基于统计语言模型的双向词类标注方法[J];计算机科学;2003年09期
10 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
3 庞文斌;张国煊;曹恬;;基于规则和统计的汉语浅层句法分析的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
7 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
9 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
2 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
3 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
6 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
7 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
8 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
5 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
6 马龙;基于条件随机域模型的中文地名识别的研究[D];大连理工大学;2009年
7 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
8 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
9 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
10 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026