收藏本站
《南京理工大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于最大熵模型的中文命名实体识别

王江伟  
【摘要】:本文主要研究以人名、地名和组织机构名的识别为核心内容的命名实体识别,并对实体的识别方法进行了设计实现。本文主要工作和特点如下: 1、以最大熵为基本框架,基于标注语料库,在不使用人工词典的情况下建立最大熵语言模型。利用局部最优解码算法和动态规划的全局最优解码算法,在字一级实现了人名、地名识别,在词一级实现了组织机构名识别。 2、就最大熵模型的解码问题提出了一种树-栅格解码算法。该算法的优点在于,它可以在随文本长度线性增长的时间复杂度内得到全局最优解和最优N解;能够判断相邻状态是否合法,解决了行动序列(标注结果)中潜在的冲突问题。 3、为了进一步提高模型性能,本文尝试了不同的特征模板集,并给出了对比的数据。实验结果表明,在训练语料集相对较小的情况下,基于最大熵模型的命名实体识别能够获得较为满意的性能。
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.4

手机知网App
【引证文献】
中国期刊全文数据库 前3条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 昝红英;张军珲;朱学锋;俞士汶;;副词“就”的用法及其自动识别研究[J];中文信息学报;2010年05期
3 董晓凯;莫苏宁;李博;陆伟;;基于最大熵模型下复合特征模板的产品属性挖掘研究[J];苏州科技学院学报(自然科学版);2012年01期
中国博士学位论文全文数据库 前1条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
2 龚凌晖;中文命名实体识别与歧义消解研究[D];复旦大学;2011年
3 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
4 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
5 朱丽丽;基于类比学习的人名识别方法研究[D];山西大学;2007年
6 王铮;基于CRF的古籍地名自动识别研究[D];广西民族大学;2008年
7 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
8 王国印;科技文献语义标注系统研究[D];华中科技大学;2009年
9 张小欢;中文分词系统的设计和实现[D];电子科技大学;2010年
10 张祝玉;基于条件随机场的中文命名实体识别[D];东北大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 张建平;语音识别与理解的语言统计模型和搜索算法[J];电子科技导报;1999年09期
2 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
5 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
6 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
7 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
8 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
9 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
10 黄德根,岳广玲,杨元生;基于统计的中文地名识别[J];中文信息学报;2003年02期
【共引文献】
中国期刊全文数据库 前10条
1 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
2 徐文莉;;基于最大熵方法的DaR风险度量模型[J];安徽师范大学学报(自然科学版);2007年01期
3 魏长宏;赵宇;;《金山词霸2006》屏幕取词问题研究[J];鞍山师范学院学报;2007年04期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
6 吕学强;舒燕;施水才;;搜索日志中“V+N”、“V+V”型短语识别[J];北京信息科技大学学报(自然科学版);2012年02期
7 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
8 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
9 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期
10 张仰森;曹元大;俞士汶;;最大熵方法中特征选择算法的改进与纠错排歧[J];北京理工大学学报;2006年01期
中国重要会议论文全文数据库 前10条
1 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 匡海波;李斌;王嘉灵;王帅;陈小荷;;汉英词汇隐喻属性的对比分析与互增益技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
5 殷业;王清;李夏;;基于Globish的受限域英汉机器翻译系统研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
6 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
7 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
9 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
10 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
7 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
8 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
9 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
10 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
4 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
5 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
8 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
9 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
10 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
3 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
4 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
5 来新夏;中国地方志的史料价值及其利用[J];国家图书馆学刊;2005年01期
6 刘刚;中国方志书目与索引述略[J];北京图书馆馆刊;1997年01期
7 韩光辉;论中国地名学发展的三个阶段[J];北京社会科学;1995年04期
8 张锋;樊孝忠;许云;;Chinese Term Extraction Based on PAT Tree[J];Journal of Beijing Institute of Technology(English Edition);2006年02期
9 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
10 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
中国重要会议论文全文数据库 前6条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 欧阳佑;李素建;;条件随机域模型和实验分析[A];第三届学生计算语言学研讨会论文集[C];2006年
3 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
4 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
5 张磊;王斌;靖红芳;吴丽辉;;中文网页搜索日志中的特殊命名实体挖掘[A];第五届全国信息检索学术会议论文集[C];2009年
6 周丽娟;张坤丽;袁应成;昝红英;;基于规则的现代汉语连词用法自动识别研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前5条
1 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
3 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
4 衡中青;地方志知识组织及内容挖掘研究[D];南京农业大学;2007年
5 李敬;增量学习及其在图像识别中的应用[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
2 周溢辉;基于规则与统计的语气词用法自动识别研究[D];郑州大学;2011年
3 袁应成;基于用法属性的现代汉语介词短语边界识别研究[D];郑州大学;2011年
4 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
5 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
6 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
7 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
8 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
9 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年
10 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 张坤丽;赵丹;昝红英;柴玉梅;;常用现代汉语副词用法自动识别研究[J];中文信息学报;2012年06期
3 张坤丽;昝红英;林爱英;张静杰;;规则与统计相结合的副词“也”用法自动识别研究[J];河南大学学报(自然科学版);2013年04期
4 昝红英;张静杰;娄鑫坡;;汉语虚词用法在依存句法分析中的应用研究[J];中文信息学报;2013年05期
5 谷川;周宏宇;于江德;;融合多特征的中文产品命名实体识别[J];科学技术与工程;2013年31期
6 朱锁玲;包平;;方志类古籍地名识别及分析研究——以《方志物产》(广东分卷)为例[J];图书馆论坛;2012年04期
7 昝红英;张腾飞;张坤丽;;规则与统计相结合的介词用法自动识别研究[J];计算机工程与设计;2013年06期
8 王昊;邓三鸿;;HMM和CRFs在信息抽取应用中的比较研究[J];现代图书情报技术;2007年12期
9 朱锁玲;包平;;方志类古籍地名识别及系统构建[J];中国图书馆学报;2011年03期
10 唐钊;;条件随机场模型在中文人名识别中的研究与实现[J];现代计算机(专业版);2012年21期
中国重要会议论文全文数据库 前1条
1 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 罗亮;蛋白质结构预测模型研究[D];华中科技大学;2010年
3 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
中国硕士学位论文全文数据库 前10条
1 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
2 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
3 蓝雁玲;基于多模板HMM的中文命名实体识别[D];华南理工大学;2011年
4 张佳宝;基于条件随机场的中文命名实体识别研究[D];国防科学技术大学;2010年
5 雷春雅;领域实体关系自动抽取研究[D];昆明理工大学;2011年
6 谭侃侃;基于规则的中文地址分词与匹配方法[D];山东科技大学;2011年
7 杨丽英;基于主题要素的突发事件后续报道追踪方法研究[D];山西大学;2008年
8 许晓丽;面向信息抽取的中文命名实体识别研究[D];哈尔滨工程大学;2009年
9 邹涛;一种电子产品领域命名实体识别方法研究[D];西安电子科技大学;2010年
10 谭魏璇;命名实体与基本名词短语识别研究[D];苏州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
5 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
6 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
7 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
8 刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期
9 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
10 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
2 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
3 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
4 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
5 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
6 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
7 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
8 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
9 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
10 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 王栋;朱元生;;最大熵原理(P0ME)和蒙特卡罗(MC)法在水环境评价随机观测误差影响中的应用[A];中国水利学会2002学术年会论文集[C];2002年
5 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
6 王栋;;最大熵原理(POME)及其在水文水资源科学中的应用研究[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
7 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 丁华;非直井井迹优化设计与决策分析应用研究[D];大连理工大学;2004年
6 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
7 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
10 叶秀芬;基于互联网的遥操作系统数据传输的研究[D];哈尔滨工程大学;2003年
中国硕士学位论文全文数据库 前10条
1 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
4 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
5 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
6 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026