收藏本站
《北京化工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术

俞鸿魁  
【摘要】:本文提出了一种基于层次隐马尔可夫模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和命名实体识别集成到一个完整的理论框架中。在分词方面,采取的是基于类的隐马尔可夫模型,在这层隐马尔可夫模型中,命名实体和词典中收录的普通词一样处理。命名实体识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出命名实体,并计算出真实的可信度。在切分排歧方面,采用一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到。不同层面的实验表明,层次隐马模型的各个层面对汉语词法分析都发挥了积极的作用。作者参与了基于层次隐马尔可夫模型的汉语词法分析系统ICTCLAS的开发,该系统在2002年的973专家组评测中获得第一名,在2003年汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名。这表明:ICTCLAS是目前最好的汉语 WP=4 词法分析系统之一,层次隐马尔可夫模型能够解决好汉语词法问题。
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.4

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
中国重要会议论文全文数据库 前1条
1 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 侯呈风;基于HMM的哈萨克语词性标注研究[D];新疆大学;2011年
2 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
3 程英迅;基于军事本体的智能检索引擎研究[D];电子科技大学;2010年
4 彭璐;基于拼音标注的中文分词算法研究[D];华中科技大学;2010年
5 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
6 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
7 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
8 胡正;基于垂直搜索技术的网站分析系统的研究与实现[D];西南交通大学;2008年
9 孙静;基于平行语料库的无监督中文词性标注研究[D];苏州大学;2010年
10 章栋兵;互联网舆情分析关键技术的研究与实现[D];武汉理工大学;2010年
【参考文献】
中国期刊全文数据库 前6条
1 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
2 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
3 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
4 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
5 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
6 刘海涛;关于自然语言计算机处理的几点思考[J];术语标准化与信息技术;2001年01期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【共引文献】
中国期刊全文数据库 前10条
1 潘娣;;机器翻译的利弊以及发展前景[J];安徽文学(下半月);2008年09期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 赵红丹;王希杰;;基于隐马尔科夫模型的词性标注[J];安阳师范学院学报;2010年05期
4 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
5 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
6 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
7 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
8 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
9 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
10 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
中国重要会议论文全文数据库 前10条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
5 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
6 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
7 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
8 张树武;徐波;黄泰翼;;汉语大词汇/连续语音识别语言建模技术分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年
9 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
10 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
中国博士学位论文全文数据库 前10条
1 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 李慧;智能居住环境学习和控制策略研究[D];山东大学;2011年
5 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
6 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
7 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
8 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
9 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
4 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
5 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
8 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
9 尹方园;“VA”动结式表层语义分析[D];湘潭大学;2010年
10 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
2 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
3 来新夏;中国地方志的史料价值及其利用[J];国家图书馆学刊;2005年01期
4 刘刚;中国方志书目与索引述略[J];北京图书馆馆刊;1997年01期
5 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
6 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
7 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
8 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
9 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
10 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
中国重要会议论文全文数据库 前3条
1 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
2 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前1条
1 马海兵;[N];光明日报;2007年
中国博士学位论文全文数据库 前10条
1 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 强保华;异构数据库语义集成技术研究[D];重庆大学;2005年
6 黄茂军;地理本体的形式化表达机制及其在地图服务中的应用研究[D];武汉大学;2005年
7 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
8 于海波;基于规则和本体的应用安全策略研究[D];吉林大学;2006年
9 林松涛;模块化本体建设研究[D];北京邮电大学;2006年
10 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 辛强;基于共现距离与查询扩展的蒙古文信息检索系统[D];内蒙古大学;2011年
2 姜兰池;基于内容的图像检索关键技术研究[D];杭州电子科技大学;2009年
3 任丽芸;搜索引擎中文分词技术研究[D];重庆理工大学;2011年
4 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
5 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
6 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
7 毕丽克孜;现代维吾尔语语料库词频统计实验性研究[D];新疆大学;2003年
8 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
9 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
10 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前8条
1 王子牛;曹凌菲;王岩;;基于双数组Trie树法的关键字预处理技术及其在CNC语法检验中的应用[J];贵州大学学报(自然科学版);2010年01期
2 刘兴林;;基于核心属性渗透理论的合成词词性标注方法[J];电子技术与软件工程;2013年16期
3 唐松;;网络舆情技术在金融行业中的应用探讨[J];金融经济;2012年12期
4 方薇;何留进;宋良图;;因特网上舆情传播的预测建模和仿真研究[J];计算机科学;2012年02期
5 蓝昊慧;;中医方剂与图集的转换方法[J];计算机时代;2012年11期
6 刘凯;周雪忠;于剑;张润顺;;基于条件随机场的中医临床病历命名实体抽取[J];计算机工程;2014年09期
7 萨蕾;;图书馆古籍数字资源整合研究[J];图书馆;2014年04期
8 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
中国博士学位论文全文数据库 前6条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
3 刘林泉;水声综合测控系统关键技术研究[D];哈尔滨工程大学;2008年
4 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
5 任柯燕;基于机器视觉的室外场景图像理解方法研究[D];北京邮电大学;2012年
6 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年
中国硕士学位论文全文数据库 前10条
1 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
2 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
3 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
4 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
5 江军;用户评论情感分类系统设计与实现[D];南京大学;2011年
6 侯呈风;基于HMM的哈萨克语词性标注研究[D];新疆大学;2011年
7 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
8 刘齐;内容审计系统的研究与实现[D];电子科技大学;2011年
9 任晓霞;BBS舆情智能分析系统研究与实现[D];沈阳理工大学;2011年
10 杨宝春;基于类目的电子商务导航系统设计与实现[D];南京邮电大学;2011年
【二级参考文献】
中国期刊全文数据库 前9条
1 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
2 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
3 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
4 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
5 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
6 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
7 刘海涛;计划语言研究对自然语言处理的影响[J];术语标准化与信息技术;1998年04期
8 刘涌泉;机器翻译归根到底是个语言学问题[J];语言文字应用;1997年03期
9 刘海涛;依存语法和机器翻译[J];语言文字应用;1997年03期
【相似文献】
中国期刊全文数据库 前10条
1 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
3 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
4 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
5 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
6 张向喆;王明辉;赵洪波;王起山;潘玉春;;生物医学文本中命名实体识别研究[J];上海交通大学学报(农业科学版);2010年02期
7 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期
8 滕青青;吉久明;郑荣廷;李楠;;基于文献的中文命名实体识别算法适用性分析研究[J];情报杂志;2010年09期
9 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
10 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
中国重要会议论文全文数据库 前10条
1 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前7条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
7 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
2 邹涛;一种电子产品领域命名实体识别方法研究[D];西安电子科技大学;2010年
3 张学清;规则与统计相结合的音乐领域命名实体识别[D];电子科技大学;2010年
4 陈晖;半监督的命名实体识别[D];北京交通大学;2011年
5 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
6 付春元;汉语嵌套命名实体识别方法研究[D];黑龙江大学;2011年
7 夏涵;基于本体的医学命名实体识别技术研究[D];上海交通大学;2012年
8 范文婷;生物医学领域的命名实体识别和标准化[D];大连理工大学;2013年
9 荀晶;面向微博数据的命名实体识别研究与实现[D];东北大学;2013年
10 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026