收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

应用条件随机场进行汉语分词和词性标注的研究

于长远  
【摘要】: 随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。 中文自然语言处理是让机器理解中文的核心技术。汉语分词和词性标注是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。 本文的核心工作可以概括为以下三个方面: (1)介绍了最大熵理论以及最大熵理论对自然语言理解的重要意义,并进一步介绍了以最大熵理论为驱动发展起来的条件随机场模型。条件随机场模型不仅克服了以隐马尔可夫模型为代表的“产生式”模型那样的严格独立假设,并解决了最大熵马尔可夫模型和其他“非产生式”模型所存在的标记偏置的问题。 (2)对现有的一些汉语分词和词性标注算法和模型进行了比较、综合。在总结前人研究成果的基础上,对传统的几种模型加以比较,采用了基于条件随机场的汉语分词方法,使得汉语分词和词性标注结果的准确率有一定的提高。 (3)根据汉语分词的特点及条件随机场所使用的特征,确定了一套基于条件随机场模型使用的特征模板,并对歧义词和未登录词的分词统计进行了详细的说明。分析、设计和实现了一个基于条件随机场模型的汉语分词和词性标注模块。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 阴晋岭;王惠临;;词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注[J];现代图书情报技术;2009年03期
2 王永生;柴佩琪;;英文文语转换系统中基于决策树的词性标注的非监督学习[J];计算机应用;2006年03期
3 洪铭材;张阔;唐杰;李涓子;;基于条件随机场(CRFs)的中文词性标注方法[J];计算机科学;2006年10期
4 李双龙;刘群;王成耀;;基于条件随机场的汉语分词系统[J];微计算机信息;2006年28期
5 孙静;李军辉;周国栋;;基于条件随机场的无监督中文词性标注[J];计算机应用与软件;2011年04期
6 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
7 应玉龙;李淼;乌达巴拉;朱海;;基于条件随机场的蒙古语词性标注方法[J];计算机应用;2010年08期
8 于江德;睢丹;樊孝忠;;基于字的词位标注汉语分词[J];山东大学学报(工学版);2010年05期
9 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
10 蒋文明;张雪英;李伯秋;;基于条件随机场的中文地址要素识别方法[J];计算机工程与应用;2010年13期
11 于江德;谷川;葛文英;樊孝忠;;一种基于字和子串联合标注的汉语分词方法[J];山西大学学报(自然科学版);2011年03期
12 于江德;王希杰;樊孝忠;;汉语分词中上文和下文重要性比较[J];计算机工程与应用;2011年04期
13 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
14 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
15 于江德;樊孝忠;尹继豪;;隐马尔可夫模型在自然语言处理中的应用[J];计算机工程与设计;2007年22期
16 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
17 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
18 付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期
19 王敏;郑家恒;;基于改进的隐马尔科夫模型的汉语词性标注[J];计算机应用;2006年S2期
20 梁妍;朱耀庭;;错误驱动学习在未登录词词性标注中的应用[J];计算机工程与设计;2008年06期
中国重要会议论文全文数据库 前10条
1 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王波;王厚峰;;中文单词聚类的比较研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 俞士汶;段慧明;朱学锋;;词语兼类暨动词向名词漂移现象的计量分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
7 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
8 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
10 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
3 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
4 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
5 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
6 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
10 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
2 于长远;应用条件随机场进行汉语分词和词性标注的研究[D];辽宁科技大学;2008年
3 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
4 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
5 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
6 张慧;汉语句法分析及其在汉英统计翻译中的应用[D];厦门大学;2007年
7 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
8 沈勤中;基于条件随机场的汉语分词研究[D];苏州大学;2008年
9 颜军;基于条件随机场的中文分词研究与应用[D];武汉理工大学;2009年
10 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978