收藏本站
《北京邮电大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件随机场的中文命名实体识别研究

曾冠明  
【摘要】: 命名实体识别(NER)在自然语言处理中是一个最困难的任务,它在一些语言处理的应用中充当了关键作用,如信息提取、文本分类等。之前已经有很多基于命名实体识别的研究,现在中文命名实体识别研究也开始被重视。中文和英文语料存在很大的差别,中文词语之间没有空格作为词之间的分隔标记,这使得中文命名实体识别成为一个比英文命名实体识别更加艰巨的任务。在之前的研究中很多方法被试用,而条件随机域CRF模型取得了一个很好的效果。在之前很多研究条件随机域的工作中,大多数集中在CRF特征模板的选取,他们使用了复杂的CRF模板,这其中耗费了大量的系统内存,并需要很长的时间来处理训练数据。 在本文中,我们侧重于提高中文命名实体识别系统的效率。我们建立了两步的基于CRF模型的中文命名实体识别系统。第一步,我们使用CRF模型去识别中文命名实体,在使用了改进的标注集以后,可以使这一步骤的效率更高。第二个步,我们使用一些后处理方法来提高准确性。后处理方法包括TBL和基于规则的方法。 通过对比实验,我们发现简单模板Tempfate-3和五种标注标注集的搭配比Template-5和四种标注标注集的搭配可以得到一个更高的准确率(P值),虽然系统召回率(R值)比Template-5和四种标注的标注集要低,但是系统的总体情况F值显示在识别结果上两种模板效果相近。但是从资源占用上可以看到,Template-3和五种标注的标注集占用了更少的系统资源和使用了更少的训练时间。由此可知,当你使用一个简单的CRF特征模板时,只要你能找到一个与之相匹配的标注集,系统同样可以得到跟使用复杂特征模板时取得相近的效果,同时你还节省了不少系统资源。而我们的系统获得的F值是91.94,且我们的系统使用较少的系统资源。 文章最后分析了产生这种实验结果的原因,并给出了对日后工作的展望。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 姜文志;顾佼佼;胡文萱;王彦;;基于多模型结合的军事命名实体识别[J];兵工自动化;2011年10期
中国硕士学位论文全文数据库 前2条
1 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
2 张佳宝;基于条件随机场的中文命名实体识别研究[D];国防科学技术大学;2010年
【参考文献】
中国期刊全文数据库 前4条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
3 徐昉;宗成庆;王霞;;中文Base NP识别:错误驱动的组合分类器方法[J];中文信息学报;2007年01期
4 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
2 李建平;王慧强;卢爱平;郝洪亮;冯光升;;基于条件随机场的网络安全态势量化感知方法[J];传感器与微系统;2010年10期
3 黄德根;李泽中;万如;;基于SVM和CRF的双层模型中文机构名识别[J];大连理工大学学报;2010年05期
4 周顺先;林亚平;王耀南;易叶青;;基于二阶隐马尔可夫模型的文本信息抽取[J];电子学报;2007年11期
5 王昌厚;;基于条件随机场的中文命名体识别[J];福建电脑;2012年02期
6 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
7 胡广朋;程辉;邵玉宝;;基于层叠条件随机场的网络入侵识别[J];江苏科技大学学报(自然科学版);2008年05期
8 李军;王丁;王鑫;;基于模板匹配的中文机构名识别[J];信息技术;2008年06期
9 陈嘉鸣;郑世宝;;使用历史点击数据提高用户偏好分级性能[J];信息技术;2009年07期
10 周波;蔡东风;;基于条件随机场的中文组织机构名识别研究[J];沈阳航空工业学院学报;2009年01期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 陈慧;张普;;基于DCC动态流通语料库的中文组织名监测与研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
3 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
4 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
5 刘运;DDoS Flooding攻击检测技术研究[D];国防科学技术大学;2011年
6 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
7 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
8 刘荣辉;多阶段自适应差分进化算法及应用研究[D];东华大学;2012年
9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
10 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
4 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
5 牛彦清;中文问答系统的问句分类研究[D];太原理工大学;2011年
6 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
7 潘文彬;基于情感词词典的中文句子情感倾向分析[D];北京邮电大学;2011年
8 旷远;观点提出者(opinion holder)提取研究[D];北京邮电大学;2011年
9 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
10 龚凌晖;中文命名实体识别与歧义消解研究[D];复旦大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 姜文志;蒋伟俊;张金乙;王迪;;军用词典库的设计[J];兵工自动化;2007年08期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
4 李治国;蔡东风;周俏丽;杨者青;;在篇章中利用互信息识别命名实体的研究[J];沈阳航空工业学院学报;2007年01期
5 胡文博;都云程;吕学强;施水才;;基于多层条件随机场的中文命名实体识别[J];计算机工程与应用;2009年01期
6 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
7 薛征山;郭剑毅;余正涛;张志坤;姚贤明;;基于HMM的中文旅游景点的识别[J];昆明理工大学学报(理工版);2009年06期
8 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
9 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
10 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
中国博士学位论文全文数据库 前2条
1 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
2 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前9条
1 刘博;基于作战文书的标图系统设计与实现[D];解放军信息工程大学;2009年
2 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
3 朱江涛;中文信息处理中命名实体识别问题的研究[D];沈阳航空工业学院;2006年
4 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
5 杨华;基于最大熵模型的中文命名实体识别方法研究[D];哈尔滨工程大学;2008年
6 孟晓亮;产品命名实体识别研究[D];中国传媒大学;2009年
7 高岩;基于本体的信息过滤研究与实现[D];沈阳工业大学;2010年
8 史海峰;基于CRF的中文命名实体识别研究[D];苏州大学;2010年
9 张学清;规则与统计相结合的音乐领域命名实体识别[D];电子科技大学;2010年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
中国硕士学位论文全文数据库 前1条
1 郑明东;语音关键词识别技术研究[D];广西师范大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
6 谭红叶,郑家恒,刘开瑛;中国地名自动识别系统的设计与实现[J];计算机工程;2002年08期
7 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
8 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
9 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
10 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
【相似文献】
中国期刊全文数据库 前10条
1 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
2 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
3 方莹;;基于条件随机场的英文农产品名识别[J];河南科学;2011年03期
4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
5 朱丹浩;王东波;谢靖;;基于条件随机场的介宾结构自动识别[J];现代图书情报技术;2010年Z1期
6 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
7 于江德;睢丹;樊孝忠;;基于字的词位标注汉语分词[J];山东大学学报(工学版);2010年05期
8 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
9 鞠久朋;张伟伟;宁建军;周国栋;;CRF与规则相结合的地理空间命名实体识别[J];计算机工程;2011年07期
10 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期
中国重要会议论文全文数据库 前10条
1 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
6 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
7 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 宁伟;蔡东风;季铎;;基于条件随机场的冠词选择研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
10 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 上海海成投资公司 韩洪宇;细化交易行为 量化市场因素[N];期货日报;2007年
2 王雅丽;空口有凭:用声音来付账[N];中国计算机报;2007年
3 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
4 记者  潘竑;指纹支付:电子支付的最佳补充[N];金融时报;2006年
5 上海海成投资公司 韩洪宇;如何从微观角度用概率统计方法进行量化技术分析[N];期货日报;2007年
6 柴凤伟;信息化市场的新亮点[N];现代物流报;2006年
7 本报记者 王玲实习生 孟雪;方兴未艾的生物识别技术[N];经济日报;2007年
8 贺小虎;生物识别:智能安防新境界[N];中国房地产报;2004年
9 山西 姚贵林;电子生物识别技术的种类及应用[N];电子报;2003年
10 杨文婷 本报记者 袁志勇;银行指纹认证,取钱更安全吗[N];科技日报;2010年
中国博士学位论文全文数据库 前10条
1 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
2 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
3 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
7 叶学义;基于虹膜和脸像的多生物特征身份识别及融合算法的研究[D];中国科学技术大学;2006年
8 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
9 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 曾冠明;基于条件随机场的中文命名实体识别研究[D];北京邮电大学;2009年
2 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
5 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
6 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
7 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
8 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
9 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
10 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026