收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语文本人名识别改进方法研究

武玉洲  
【摘要】: 命名实体识别是近年来中文信息处理领域研究的热点之一。命名实体是文本中信息最重要的载体,提高命名实体识别的准确率不仅能提高分词精度,而且对于提高信息抽取、信息检索、机器翻译、语音合成等应用系统的性能也有重要意义。 目前命名实体识别的基本路线是:首先分析各种专名的内部结构、用字(词)特征,形成专名资源表;其次对大规模专名表和人工标注语料库进行统计学习,训练出适当的语言模型;最后用训练得到的语言模型识别候选专名。在这种思路的指导下,命名实体识别取得了一定的成果。 但是,由于专名内部结构和特征的封闭性,各种识别方法在专名资源表构造和内容上逐渐趋于统一。就人名识别来说,一方面,以往的研究大多都是在较简单地分析上下文的基础上运用统计模型进行识别,对人名上下文特征的挖掘还不够细致、深入;另一方面,目前流行的基于语料库和统计语言模型的识别方法在概率估值问题上存在弊端,不能反映语言的客观实际。针对这些问题,我们一方面在人名用字和上下文特征上下功夫,完善了人名用字信息库,通过对几个高频姓氏的实例分析,挖掘了许多有用的正反面特征;另一方面,运用一种改进的可信度估值方法,计算了人名用字的可信度和人名上下文特征的可信度。 实验证明,这些措施对于提高人名识别的准确率有积极作用。这种方法也为其他专名的识别提供了借鉴。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 韩焜;;未能亮相的大腕们[J];世界电影之窗;2009年09期
2 赵迪;武晶晶;吴胜涛;;口音差别会降低谈话的可信度[J];心理与健康;2010年12期
3 闵良臣;;“夹道”的可信度及其他[J];杂文选刊(上旬版);2010年09期
4 夏书章;;王婆卖瓜[J];中国行政管理;2011年01期
5 刘健金;;资料可信度与志书质量刍谈[J];广西地方志;2006年02期
6 文雨;;书不可尽信[J];甘肃教育;2011年07期
7 思婧;蓝朵朵;朱武;;对不起,我利用了你们![J];布老虎青春文学;2009年30期
8 吴静;;秘书人员如何提升自己的“可信度”[J];青年文学家;2011年02期
9 张成喜;;从聚焦模式看《微暗的火》叙述者的可信度[J];长春理工大学学报(社会科学版);2010年06期
10 宋力英;;对大学外语考试的思考[J];黑龙江教育学院学报;2006年04期
11 宋春娇;;20世纪90年代以来名人广告效果的研究进展[J];社会心理科学;2007年Z3期
12 郑梅花;;对大学生批改英语作文可信度的测试与思考[J];中国科技信息;2008年10期
13 查爱苹,张静;公众对旅行社旅游广告认知的调查研究——以上海市居民为例[J];北京第二外国语学院学报;2005年03期
14 罗智勇;宋柔;朱小杰;;藏族人名汉译名识别研究[J];情报学报;2009年03期
15 张晨;;山西盂县张士贵家谱之编修及其可信度[J];沧桑;2009年04期
16 尹蓓莉;;当事人知觉到的可信度和吸引力是影响其转变的主要因素[J];上海青年管理干部学院学报;2010年04期
17 杨少衡;;钓鱼过程[J];农村.农业.农民;2002年10期
18 沈农夫;;推销中的3个锦囊[J];成功;2003年04期
19 任遂虎;;文学“真实性”级次辨析[J];西北师大学报(社会科学版);2005年06期
20 齐夫;;政声人去后[J];中华魂;2010年05期
中国重要会议论文全文数据库 前10条
1 朱锋;邱勇;朱泽章;王斌;李卫国;王渭军;;PUMC协和分型的可信度与可重复性比较[A];第二届华东地区骨科学术大会暨山东省第九次骨科学术会议论文汇编[C];2007年
2 黄文明;兰静;张阳;;基于改进蚁群算法的网格资源调度[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
3 冯朝斌;吕成国;赵洪刚;;话者识别系统改进策略的研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 应毅;毛宇光;;可信度在次协调关系数据库中的应用[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 朱锋;邱勇;朱泽章;李卫国;王渭君;;青少年特发性脊柱侧凸King、Lenke和PUMC(协和)分型的可信度和可重复性比较及意义[A];第八届全国脊柱脊髓损伤学术会议论文汇编[C];2007年
7 高雁泽;白炳泉;于俊杰;;基于最小风险的装备维修资源优化调度模型[A];第十二届中国管理科学学术年会论文集[C];2010年
8 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
9 赵慧军;;男女经理可信度和公正性的比较研究[A];第五届(2010)中国管理学年会——组织行为与人力资源管理分会场论文集[C];2010年
10 陈旭日;徐炜民;沈文枫;袁世忠;;基于可信度的网格资源选择算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
8 张品;网络中QoS路由问题的研究[D];电子科技大学;2004年
9 李国主;中国中低纬电离层闪烁监测、分析与应用研究[D];中国科学院研究生院(武汉物理与数学研究所);2007年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
4 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
5 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
6 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
7 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
8 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
9 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
10 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
中国重要报纸全文数据库 前10条
1 记者 邰举;韩推出手机使用密钥技术[N];科技日报;2006年
2 建国 秋实;名人知名度不等于广告可信度[N];中国消费者报;2000年
3 新华社《用户意见反馈》;用原话做标题,有亲切感和可信度[N];新华每日电讯;2007年
4 本报记者 李娟;工程招标“遭遇”可信度评级[N];政府采购信息报;2006年
5 吴晶;教育部:兜售高考“试题”的,都是骗局[N];新华每日电讯;2007年
6 通讯员 鲁先胜;河南濮阳职称评审可信度高[N];中国人事报;2008年
7 本报记者 闵杰;网上导购,信息可信度如何[N];河南日报;2006年
8 冯满亮;强认证保障在线交易可信度[N];中国计算机报;2006年
9 戴正宗 编译;日本化债可信度将受到考验[N];中国财经报;2010年
10 张培娟;交强险再次遭律师“炮轰”[N];北京商报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978