收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究

唐霄  
【摘要】: 汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理领域的一项基础性课题。本文从理论上分析和比较了目前各种汉语自动分词方法,对各种分词方法的技术特点进行了阐述。 本文主要目标是设计并实现一个中文POI自动分词系统,在分析了自动分词面临的主要困难的基础上,设计并实现了一个基于多步处理策略的中文POI自动分词系统。 论文首先介绍了汉语自动分词系统通常采用的分词算法和自动分词面临的难点,分析了歧义字段产生的根源以及歧义字段的识别方法。 其次搜集、整理和建立了研究所用的自然语言资源。主要包括语料库的搜集,分词词典的建立。 论文设计并实现了一个基于多步处理策略的中文POI分词系统。系统包括初切分、歧义字段处理、未登录词识别等功能模块。初切分是找出待切分语句各种可能路径,利用N最短路径的方法;歧义字段处理根据POI自身的特点,利用自定义方法和隐马尔科夫模型相结合的方式处理交集型歧义;未登录词识别的功能是利用规则的方法,对未登录词中的地名等进行分析和处理。 最后通过实验验证了系统的性能。同时对全文的工作进行了总结,提出进一步的研究工作。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 王凡秀;王自强;;汉语自动分词技术研究[J];计算机与数字工程;2008年11期
3 陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期
4 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
5 张孝飞,陈肇雄,黄河燕,蔡智;词性标注中生词处理算法研究[J];中文信息学报;2003年05期
6 赵伟;张学;安诚;;基于统计和规则的中文姓名识别[J];信息与电脑(理论版);2011年05期
7 王广正;王喜凤;;一种基于规则优先级的词性标注方法[J];安徽工业大学学报(自然科学版);2008年04期
8 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
9 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
10 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
11 麦范金;王挺;;基于双向最大匹配和HMM的分词消歧模型[J];现代图书情报技术;2008年08期
12 孙晓;黄德根;;基于动态规划的最小代价路径汉语自动分词[J];小型微型计算机系统;2006年03期
13 李玉梅;陈晓;姜自霞;易江燕;靳光瑾;黄昌宁;;分词规范亟需补充的三方面内容[J];中文信息学报;2007年05期
14 刘伟;;汉语词性标注系统的设计与实现[J];中小企业管理与科技(上旬刊);2009年09期
15 高红;黄德根;杨元生;;一种与分词一体化的中文人名识别方法[J];计算机工程;2006年19期
16 冯素琴;陈惠明;;一种自组织的汉语组合型歧义消歧方法[J];计算机工程与设计;2007年03期
17 熊回香;夏立新;;基于词索引的中文全文检索关键技术及其发展方向[J];中国图书馆学报;2007年04期
18 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
19 梁妍;朱耀庭;;错误驱动学习在未登录词词性标注中的应用[J];计算机工程与设计;2008年06期
20 刘杰;;基于统计的中文机构名实体识别的研究[J];佳木斯大学学报(自然科学版);2010年03期
中国重要会议论文全文数据库 前10条
1 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
4 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
5 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
6 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
8 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
9 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
10 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
6 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
7 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
8 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
9 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
10 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
中国硕士学位论文全文数据库 前10条
1 唐霄;基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究[D];西南大学;2008年
2 刘禹孜;汉语自动分词中排除歧义字段算法的研究[D];重庆大学;2005年
3 刘杰;基于唐诗语料词的提取与统计分析的研究[D];吉林大学;2006年
4 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
5 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
6 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
7 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
8 李春青;[D];电子科技大学;2004年
9 刘杰;Web中文信息抽取中命名实体识别的研究及应用[D];西北大学;2009年
10 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
2 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
5 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
8 ;探索普通话自然连续语音之规律[N];光明日报;2001年
9 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978