收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文名实体识别与新词发现技术研究

刘利刚  
【摘要】: 名实体及新词是能够准确反映文本内容的基本信息元素,是正确理解文本的基础。名实体识别及新词发现技术广泛应用于诸多自然语言处理任务中,如信息检索、机器翻译、文本分类以及自动文摘等,所以名实体识别及新词发现的研究成果必将推动自然语言处理领域的相关研究。本文主要对中文名实体识别及新词发现进行了研究,具体的研究内容主要包括以下几个方面: 1.针对当前名实体识别中识别效率低下,实用性不高以及对复杂名实体识别效果差的问题,本文根据中文名实体具有嵌套的特点,利用层次隐马尔科夫模型来分别对简单地名、人名;地名简称;复杂地名、机构名分层进行识别。在识别过程中自行设计了粗切分方法,在粗分的基础上利用自行设计的标记集来分层标注,最终识别出想要的名实体。在每一层利用N-best思想,输出N个结果给下一层,以求找到最优的解。 2.针对层次隐马尔科夫模型中数据稀疏以及系统移植性差的问题,在上面的分层处理结束后我们利用改进的基于转换的学习方法作为后处理技术来自行改进识别效果。由于对TBL学习到的规则进行了优化,目前的后处理具有较好的效率。在2004年863标准测试集上进行了开放测试,测试结果的F值达到83%。 3.针对当前新词发现中新词长度受限、领域受限以及对发现的正确新词不能优先排序等问题,本文利用统计与规则相结合的策略来进行新词发现。利用重复串频度查找来构建新词候选集;然后利用停用词集、停用词性集、头部停用词性集、尾部停用词性集、有限窗口过滤等技术来进行垃圾串滤除。对于得到的新词集,本文使用基于频度比和基于TF/IDF两种策略来进行重排序。最终,基于频度比的策略具有最好的新词发现性能,而基于TF/IDF的策略对于专业术语具有较好的识别性能。本文中,对新词发现的准确率在60%以上,召回率接近90%。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王文荣;乔晓东;朱礼军;;针对特定领域的新词发现和新技术发现[J];现代图书情报技术;2008年02期
2 潘欣;吕静波;张素莉;;基于网络蜘蛛的新词自动发现算法研究[J];长春工程学院学报(自然科学版);2011年03期
3 赵健,王晓龙,关毅;中文名实体识别中的特征组合与特征融合的比较[J];计算机应用;2005年11期
4 谭红叶;赵铁军;王浩畅;;基于向量相似度计算的半监督的名实体识别[J];计算机工程与设计;2008年19期
5 郑逢强;林磊;刘秉权;孙承杰;;《知网》在命名实体识别中的应用研究[J];中文信息学报;2008年05期
6 吴春颖;王士同;蔡崇超;;一种基于新词发现的Web文本表示方法[J];计算机应用;2008年03期
7 王大亮;蒋宏潮;涂序彦;郑雪峰;佟子健;;基于选择倾向性的词汇获取方法[J];计算机工程;2008年12期
8 方高林;于浩;孟遥;邹纲;;基于字单元分析的中文辅助阅读系统[J];中文信息学报;2008年02期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 颜伟;;基于动态流通语料库的VSM新词发现策略[A];2004年辞书与数字化研讨会论文集[C];2004年
2 王晶;郑德权;赵铁军;王忠建;;基于TBL的日文名实体识别后处理技术[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 方高林;于浩;孟遥;邹纲;;基于字分析单元的辅助阅读系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前2条
1 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
2 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前3条
1 刘利刚;中文名实体识别与新词发现技术研究[D];哈尔滨工业大学;2007年
2 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
3 高锐;基于Web的领域词典构建技术研究[D];哈尔滨工业大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978