收藏本站
《北京工业大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

现代汉语通用分词系统的技术与实现

罗智勇  
【摘要】: 自动分词技术是中文信息处理的基础工程。任何基于词一级中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词识别。本文首先阐述了现代汉语通用分词系统(GPWS)中歧义切分技术和专名识别技术,在歧义切分技术中,提出了一种切分规则库与基于歧义知识库动态校正相结合的实用歧义处理策略;在专名识别技术中,本文提出了一种专名(包括译名在内的人名、地名、企业字号、企业名和机构名等)一体化、快速识别方法。从大规模真实语料的测试结果来看,歧义切分处理的精度、专名识别的正确率和召回率均达到了较高的水平。 其次,本文概要的分析了通用型分词系统的难点,阐述了GPWS的解决方案,给出了通用分词系统的评价标准;并提出了交互式分词系统的概念,给出了一种简单的交互式方法。取得了良好的效果。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前6条
1 曹帷;教学系统中的语音技术[D];天津师范大学;2006年
2 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
3 张六四;基于远程教育的智能答疑系统的研究与实现[D];西安电子科技大学;2006年
4 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
5 吕佳;面向远程教育的智能答疑系统的研究与实现[D];西安电子科技大学;2006年
6 黄诚;智能手机垃圾短信过滤技术的研究[D];华中科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
3 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
4 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
5 赵铁军,吕雅娟,于浩,杨沐昀,刘芳;提高汉语自动分词精度的多步处理策略[J];中文信息学报;2001年01期
6 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
7 娄珽,宋柔,李卫亮,罗智勇;现代汉语分词系统通用接口设计与实现[J];中文信息学报;2001年05期
8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
9 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
10 侯敏,孙建军;汉语自动分词中的歧义问题[J];语言文字应用;1996年01期
【共引文献】
中国期刊全文数据库 前10条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
3 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
4 彭泽润;林思佳;;从两个国家标准看汉语的词[J];北华大学学报(社会科学版);2006年06期
5 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
6 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
7 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
8 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
9 祁峰;;单音节形容词和名词组合的选择性机制[J];长春师范学院学报(人文社会科学版);2009年03期
10 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
4 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
5 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 张俊萍;冯志伟;;CTT在汉语语法研究和教学中的应用[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
9 冯志伟;;确定切词单位的某些非语法因素[A];语言文字应用研究论文集(Ⅱ)[C];2004年
10 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
5 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
6 王迈;语言形式化原理[D];上海外国语大学;2011年
7 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
8 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
9 浑洁絮;基于语义语言的英汉机器翻译研究[D];大连理工大学;2011年
10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 尹方园;“VA”动结式表层语义分析[D];湘潭大学;2010年
7 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
8 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
9 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
10 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 余胜泉,何克抗;基于Internet的教学系统[J];中国电大教育;1999年06期
2 柳泉波,黄荣怀,何克抗;智能答疑系统的设计与实现[J];中国远程教育;2000年08期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
5 李龙澍,张霞;一种基于语义贴近度的模糊检索算法[J];东南大学学报;1998年05期
6 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
7 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
8 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
9 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
10 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前3条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
4 杨志国;AI网络课程中的智能答疑与实验[D];中南大学;2002年
5 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
6 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
7 傅赛香;基于Internet的智能信息检索技术研究[D];广西师范大学;2002年
8 张银;基于网络的自动答疑系统的研究与开发[D];南京师范大学;2003年
9 许林杰;中文文本分词研究[D];山东师范大学;2003年
10 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
【二级引证文献】
中国期刊全文数据库 前1条
1 向志华;梁玉英;;自然语言处理技术在网络答疑系统中的应用[J];牡丹江师范学院学报(自然科学版);2012年02期
中国硕士学位论文全文数据库 前10条
1 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
2 胡晓博;面向特定领域的专业搜索引擎的架构与实现方法[D];哈尔滨工程大学;2007年
3 魏进;中文分词技术在公安信息系统中的应用研究[D];解放军信息工程大学;2007年
4 唐霄;基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究[D];西南大学;2008年
5 胡长春;基于Lucene的中文自然语言搜索引擎[D];上海交通大学;2009年
6 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
7 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
8 王丛林;在线自动答疑系统设计与开发的研究[D];东北师范大学;2010年
9 张小欢;中文分词系统的设计和实现[D];电子科技大学;2010年
10 刘远博;基于海外版时政新闻语料库的对外汉语词汇研究[D];吉林大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
2 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
3 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
4 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
5 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
6 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
7 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
8 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
9 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
10 王挺,陈火旺,杨谊,史晓东;一种自适应词性标注方法[J];软件学报;1997年12期
【相似文献】
中国期刊全文数据库 前10条
1 孟维娟;;自然语言处理中的歧义[J];上海电机学院学报;2006年S1期
2 金希茜;孟志青;;中文文本相似度在商业网络中的应用[J];商场现代化;2009年29期
3 巫振新;林锦国;杨宇;;专业语料库建立及其在机器翻译中的应用[J];现代计算机(专业版);2008年02期
4 巫振新;林锦国;杨宇;;专业语料库建立及其在机器翻译中的应用[J];微型电脑应用;2008年04期
5 卢玉敏;;未登录名词短语识别现状初探[J];广西大学学报(自然科学版);2007年S1期
6 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
7 周文帅;冯速;;汉语分词技术研究现状与应用展望[J];山西师范大学学报(自然科学版);2006年01期
8 金在全;赵照;杜秀全;张东;;一种改进的增字最大匹配算法[J];科学技术与工程;2007年18期
9 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
10 赵川;杜玲;岳鹏;刘少君;林征胜;赵荣海;;基于中文的自然语言理解初探[J];现代电子技术;2007年06期
中国重要会议论文全文数据库 前10条
1 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 孙茂松;;分词国际标准中的核心概念体系[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 田雪梅;陈世贤;张继宗;孙建军;沈旭昆;刘钢;;伤情评价辅助系统的计算机研究[A];第五次全国法医学术交流会论文集[C];1996年
4 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 张捷;陈群秀;;提高日汉机器翻译系统翻译质量的研究[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
6 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
9 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前1条
1 教育部语信司;教育部、国家语委发布2010年中国语言生活状况报告[N];语言文字周报;2011年
中国博士学位论文全文数据库 前4条
1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
2 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
3 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 张小欢;中文分词系统的设计和实现[D];电子科技大学;2010年
2 彭瑜;基于语法的分词系统的设计与实现[D];电子科技大学;2013年
3 胡万亭;基于Web的大规模中文人物信息提取研究[D];西南交通大学;2013年
4 侯锐;基于TSE的特定领域搜索引擎研究及实现[D];东北师范大学;2008年
5 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
6 段恩泽;基于统计的汉语自动分词系统[D];电子科技大学;2005年
7 高凌;搜索算法与搜索引擎的研究与应用[D];武汉理工大学;2007年
8 王非;面向Web2.0社区的站内搜索引擎技术的研究与实现[D];国防科学技术大学;2008年
9 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
10 何松林;基于领域本体的内容过滤模型设计与实现[D];北京邮电大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026