收藏本站
《苏州大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于聚类的英汉人名消歧研究

裴飞  
【摘要】:命名实体消歧是自然语言处理的一个重要问题,在命名实体类别中,人名具有很强的歧义性,导致人名消歧是命名实体消歧任务中较难处理的一类。人名消歧主要应用于搜索引擎、社交网络和人名知识库构建等。由于人名歧义问题仍存在巨大挑战性,国际学术界在ACL-SemEval 2007,WWW 2009和CLEF 2010已经分别组织了三次英文人名消歧评测(Web People Search,WePS),一次中文人名消歧评测(The First CIPS-Sighan Joint Conference on Chinese Language Processing Task 3,CIPS-Sighan 2010 bakeoff-3)。本文采用自底向上层次聚类(Hierarchical Agglomerative Clustering,HAC)开发了一个英文人名消歧系统,此外,采用两步仿射传播(Affinity Propagation,AP)实现了聚类一个中文人名消歧系统。 本文首先重点介绍了WePS和CIPS-Sighan 2010 bakeoff-3相关工作,包括评测语料(训练集与测试集)、评估指标、baseline系统、参赛队伍评测情况以及常用人名消歧技术等。 英文人名消歧中首先抽取出各种特征,再通过详细实验选取有效的特征,然后采用融合多特征技术来提高消歧效果。本文采用比较成熟的自底向上层次聚类算法(HAC)实现英文人名消歧,与其它系统不同的是本文采用相似度函数是平均连通相似度函数。实验结果表明平均连通相似度函数相对于单连通相似度函数的性能有所提高。 中文人名消歧中采用一种跳跃距离树算法抽取人名的上下文N-Gram字符做作为特征词,相似度度量计算采用改进后的词频-逆文档频率(TF*IDF)。同时该方法也解决中文分词的问题,从而实现对干扰文档的识别。对于中文人名消歧中聚类算法,本文采用两步仿射传播聚类算法,其中第一步保证较高的准确率,第二步聚类主要提升系统召回率。实验结果显示两步聚类明显提升实验结果,诊断测试实验结果说明了中文切词性能对人名消歧也有重要影响。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 汪津,杜德基;英汉机器翻译系统中的消歧策略[J];微型电脑应用;1997年04期
2 柳无忌;;人名错了[J];读书;1984年04期
3 刘蓓,杜利民;汉语口语对话系统中语义分析的消歧策略[J];中文信息学报;2005年01期
4 周洪,陈强;基于SC文法的英汉机译中消歧处理的研究[J];北京联合大学学报;1997年03期
5 邱莉芹;;关于人名用字中生僻字使用情况的调查与分析[J];术语标准化与信息技术;2008年02期
6 董丽梅;;人名在新闻标题中的巧妙应用[J];新闻爱好者;2011年09期
7 元敏;;杂谈人名、名词和符号的统一问题[J];电子技术;1964年04期
8 秋月;;梨洲诗集人名考录(一)[J];宁波大学学报(教育科学版);1986年S1期
9 冯志伟;英日机器翻译系统E-to-J原语分析中的兼类词消歧策略[J];中文信息学报;1999年05期
10 王鑫,李维;科技期刊中刊名人名地名汉语拼音存在问题分析[J];编辑学报;2002年04期
中国重要会议论文全文数据库 前10条
1 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[A];第六届全国信息检索学术会议论文集[C];2010年
2 周晓;李超;胡明涵;王会珍;;基于人物互斥属性的中文人名消歧[A];第六届全国信息检索学术会议论文集[C];2010年
3 李丽;孙甲申;王小捷;李江;宋占江;;基于属性信息的中文人名消歧[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年
6 周云;王挺;易绵竹;王之元;;全词消歧的序列标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 朱春敬;;原拼形照写 汉读法读音[A];语文现代化论丛(第七辑)[C];2006年
8 冯志伟;;机器翻译系统消歧功能测试[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
9 杨晓安;;“没有VP的NP”型结构消歧的韵律手段[A];第九届中国语音学学术会议论文集[C];2010年
10 方向红;宋春阳;;介连兼类词“以”的句法语义区别特征及消歧策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 商报实习记者 张绪旺;破解10亿人名准确拼写之谜[N];北京商报;2010年
2 张素芳 译 陈永伶 校;《消歧公约》面临新挑战[N];中国妇女报;2000年
3 江舒;藏族人名汉字音译将有规可循[N];西部时报;2010年
4 北京科技大学法律系副教授 王竹青;《消歧公约》与中国司法实践[N];中国妇女报;2010年
5 玉珍 彭雪芳 纳日碧力戈 (作者单位:中国社科院民研究;人名社会学:时下取名风尚三人谈[N];北京日报;2000年
6 本报记者木佳;私企难入农业科研门[N];中华工商时报;2003年
7 王泉根;谈谈人名文化[N];大众科技报;2000年
8 本报记者 王春霞;性别平等有助实现全面建设和谐社会[N];中国妇女报;2007年
9 张宏立;图报复毁人名誉 因侵权被判赔偿[N];人民法院报;2001年
10 本报记者 胡京春;跳出农业抓农业[N];人民政协报;2003年
中国博士学位论文全文数据库 前10条
1 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
2 赵鹏;殷墟甲骨文中的人名及其对于断代的意义[D];首都师范大学;2006年
3 何凌霞;《三国志》专名研究[D];复旦大学;2009年
4 姜丽丽;实体搜索与实体解析方法研究[D];兰州大学;2012年
5 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
6 周玲;古璽文字集整理[D];华东师范大学;2011年
7 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
8 于永新;基于本体的图像语义识别和检索研究[D];天津大学;2009年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 裴飞;基于聚类的英汉人名消歧研究[D];苏州大学;2011年
2 李丽;基于属性信息的中文人名消歧研究[D];北京邮电大学;2012年
3 沈剑平;面向网络人物搜索的中文人名消歧[D];哈尔滨工业大学;2010年
4 戴祥鹰;文本聚类在话题检测与人名消歧中的应用研究[D];哈尔滨工业大学;2010年
5 王英帅;Web人名消歧方法的研究与实现[D];苏州大学;2010年
6 李鑫鑫;汉英人名自动翻译方法的研究[D];黑龙江大学;2012年
7 李亮;维吾尔人名汉译初探[D];新疆师范大学;2012年
8 赵凯祺;实体消歧及其在图像搜索中的应用[D];上海交通大学;2013年
9 舒平芬;个性化搜索中用户语义意图自动识别技术研究[D];东北大学;2008年
10 梁正仪;越南人名考察与翻译对策[D];华中师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026