收藏本站
《北京邮电大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

统计语言模型的研究与应用

文娟  
【摘要】: 统计语言模型在自然语言处理技术中占有重要地位,在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。 然而,现有的统计语言模型还存着一些缺陷,其中,对语言中常见的长距相依现象的描述能力弱、在语料变化时难以保持一致的描述能力是两个制约其产生更大应用价值的重要问题。 本文针对统计语言模型存在的上述不足之处,对汉语语言模型从多个角度出发,开展了多项研究工作,旨在有效克服或缓解这些问题。论文的主要工作和研究成果如下: 1、统计语言模型是基于语料而建立的,语料中各种信息的使用程度直接关系到语言模型的性能。作为开展统计语言模型研究的第一步,本文首先完成了一个语料检索工具。该工具能够使用复杂逻辑表达式进行检索,也能够通过用户自定义的表达式来检索语料中的各种语言模式。 2、为了提高统计语言模型描述语言长距相依现象的能力,本文从扩大模型单元和跳跃模型单元两个方面开展了研究。 本文认为扩大模型单元是解决长距相依问题的一个有效手段,为此提出了一种基于中文高频词串(Chinese Frequent String:CFS)的语言模型。本文首先给出了一种基于字串切分度的CFS抽取算法,基于该算法抽取的CFS比词具有更大的颗粒度。实验表明,在模型阶数相同的情况下,基于CFS的语言模型比基于字或词的语言模型具有更好的建模长距相依现象的能力。 在跳跃模型单元方面,本文提出了一种基于汉语句子语义框架的语言模型(Semantic Frame Based Language Model:SFLM),模型基于语义框架中论元与主动词的关联直接建模句子中的长距相依关系。由于主动词框架与动词义项直接关联,本文将AdaBoosting的方法用于主动词的词义消歧中,来辅助语义框架的确定。实验表明,这种基于语义结构的N元语言模型能够有效建模长距相依关系,降低模型的复杂度。 3、针对语言模型在跨语料种类时表现的性能差异问题,本文从生成模型和判别模型两种不同的训练方法上进行了研究。 在生成模型方面,针对于语料改变时产生的严重数据稀疏现象,本文提出了一种对传统Kneser-Ney平滑(以后简称K-N平滑)进行优化的参数估计方法。实验表明,基于本文提出的优化K-N平滑算法的线性插值N元语言模型具有较好的跨语料适应能力。 在判别模型方面,在最小样本风险(Minimum Sample Risk:MSR)训练方法中结合N-best算法,降低了算法的复杂性,进而研究了这种判别模型在不同语料下的模型性能和自适应能力。 4、汉语拼音输入(拼音-汉字转换:后简称音字转换)是统计语言模型的一个重要应用领域。本文最后研究了语言模型在汉语音字转换中的应用。 拼音流切分是在进行音字转换之前所必需的预处理。本文借鉴汉语字串流切分中的术语,首次归纳定义了音字转换任务中进行拼音流切分时所能遇到的两种歧义,即交集歧义和组合歧义。并分别针对两种歧义提出了相应的基于语言模型的消歧算法。实验表明,算法均具有很高的消歧性能。 本文进一步将三元语言模型用于整句音字转换,由于在三元模型下不能直接采用维特比搜索算法,本文将A*启发式搜索算法应用到三元模型的最优解搜索问题上,简化了搜索的路径。实验表明,模型具有较好的音字转换能力。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 高升,徐志明;统计语言模型中词的自动聚类技术研究[J];计算机工程与应用;2003年11期
2 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
3 赵正文;康耀红;;统计语言模型在信息检索中的应用[J];计算机工程与应用;2006年36期
4 田斌;田红心;易克初;;一种结合声学匹配信息的汉语统计语言模型新方法[J];模式识别与人工智能;1999年04期
5 田斌,田红心,易克初;一种改进的汉语N元文法统计语言模型[J];西安电子科技大学学报;2000年01期
6 郑洪静;韩卓平;;统计语言模型的手机数码中文输入法研究[J];苏州市职业大学学报;2008年02期
7 耿立中;贾惠波;;基于统计语言模型的低耗时入侵检测方法[J];计算机工程;2010年05期
8 苏绥;林原;林鸿飞;;语言模型在信息检索中的应用[J];情报学报;2011年07期
9 王轩,王晓龙,张凯;语音识别中统计与规则结合的语言模型[J];自动化学报;1999年03期
10 杨文峰,李星;基于PAT TREE统计语言模型与关键词自动提取[J];计算机工程与应用;2001年15期
中国重要会议论文全文数据库 前10条
1 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
2 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 牟晓隆;詹津明;郑方;吴文虎;;基于修正退化频度估计算法的n-gram语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
6 刘德荣;王永成;;基于词典和语料库的概念内聚度研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 张军;籍斌;;词典编纂中应用的几种主流技术研究[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
4 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
5 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
6 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
7 马瑞;非限制手写字符分割中相关技术与算法的研究[D];南京理工大学;2007年
8 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
9 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
10 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
2 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年
3 于蕾;高等汉语水平留学生写作中的问题调查及训练策略[D];东北师范大学;2011年
4 李贞;基于统计语言模型的中文网页信息检索研究[D];华中师范大学;2012年
5 张予焓;产品评价对象的提取与分析[D];北京邮电大学;2010年
6 王玉琼;副词“再”的习得情况考察[D];复旦大学;2010年
7 张征;基于领域本体的产品评价研究[D];河南师范大学;2012年
8 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
9 刘倩;外国留学生“再”之习得研究及偏误分析[D];曲阜师范大学;2010年
10 雷友芳;多项定语与“的”字隐现的定量研究[D];北京大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026