收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语命名实体识别研究

江会星  
【摘要】:命名实体识别是指识别语言中人名、地名、组织机构名等命名实体。汉语命名实体识别作为汉语切分任务的延续,是中文信息处理领域的一个基础任务,被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。随着对命名实体识别技术的需求不断提高,当前命名实体识别技术主要面临以下三个新的挑战: (1)应用平台移动化:命名实体识别的应用环境从传统网络服务器、PC机等平台,扩展到了新兴的硬件受限的移动终端,这就要求命名实体识别技术在保持高性能的同时,降低模型复杂度; (2)数据规模海量化:随着网络信息的快速增长,新的命名实体不断涌现,这就要求命名实体识别技术能有效利用不断递增的大规模数据集; (3)实体类型多样化:已经从人名、地名、组织机构名等一般性实体,扩展到了电影名、图书名、音乐名等出版物类实体,品牌名、产品名、产品型号等商品类实体,而这些新的实体类型大都缺少标准的训练数据。 本论文针对以上命名实体识别技术面临的挑战,从多个方面展开对命名实体识别的研究。论文的主要工作和研究成果如下: (1)针对移动终端硬件受限情况,同时兼顾性能的要求,提出了结合知识的二阶隐马尔可夫模型及高效的解码方法,将其应用于手机短消息中的实体识别,并构建了手机应用程序推荐系统。 实验表明,通过扩展语言单元和利用更多的知识,大幅提高了模型性能,同时由于采用了新的二阶后项A*解码算法,大幅降低了模型复杂度,使得其在硬件受限条件下表现出满意的性能。 (2)针对大规模网络数据上多类型实体的识别,从少量有标记数据出发,利用主动学习训练基于条件随机场模型的实体标注器,而后利用标注器在大数据集上抽取命名实体自动构建命名实体资源库;针对不同类型的实体在互联网上的分布情况不同,将实体分为两大类,并分别设计了两种不同的基于实体资源库的实体识别模型。 实验表明,高质量的实体资源库能有效弥补统计模型难以习得所有命名实体模式的缺陷,显著提高了命名实体识别的性能;同时,改进的主动学习效用函数,大幅降低了人工标注数据的工作量。 (3)将命名实体识别系统应用于网页意图分析,采用排序学习模型实现网页意图的抽取。 实验表明,命名实体作为具有特定意义的实体,与网页关键词相比,意义完整性和专指性强,更能表征网页的中心内容,将命名实体识别技术应用于网页意图分析,能有效提升系统的性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
2 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
3 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
4 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
5 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
6 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
7 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
8 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
9 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
10 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
11 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
12 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
13 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
14 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
15 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
16 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
17 蔡华利;刘鲁;李红;;基于规则推理的突发事件发生地点识别研究[J];情报学报;2011年02期
18 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
19 王浩畅;赵铁军;于浩;;生物文本中蛋白质名称的识别[J];计算机应用研究;2007年01期
20 倪茂树;赵晶;林鸿飞;;生物医学文本分类方法比较研究[J];计算机工程与应用;2007年12期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
4 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
6 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
7 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
8 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
9 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
10 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
中国重要报纸全文数据库 前10条
1 晁定波;我国似大地水准面的精化[N];中国测绘报;2003年
2 记者 刘桂山;伦敦金融城重现生机[N];中国证券报;2004年
3 本报记者 彭芳 李瀛寰;3G没有停[N];中国计算机报;2001年
4 本报记者 姚敏;水污染冲破最后防线[N];中国消费者报;2000年
5 贾振余 黄河河口管理局局长;用科学发展观指导黄河口治理[N];中国水利报;2006年
6 通讯员 王志伟 孙海波;永清县农产品增值生金[N];廊坊日报;2006年
7 记者 胡志刚 特约记者 姚忠辉 付彬;汪恕诚到长江委检查指导工作[N];人民长江报;2007年
8 ;杨元元还在飞的民航局长[N];市场报;2006年
9 张欢 袁福荣;基地直供农副产品身价增[N];苏州日报;2007年
10 ;Vista安全特性面临迁移挑战[N];网络世界;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978