收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向网络人物搜索的中文人名消歧

沈剑平  
【摘要】:随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满足人们的需求。如何以精准的方式把用户需要的信息呈现给用户已经是搜索引擎亟待解决的问题。人名消歧便是解决这一问题的核心技术。同时人名消歧在个性化搜索、自动问答、热点人物跟踪与发现等领域都有着广泛的应用。目前国内外基于人名消歧的中文人物搜索相关研究还比较少。 人名消歧作为近几年刚兴起的一个热门研究方向,正受到越来越多国内外研究学者的关注。国际上在英文人名消歧方面已取得了一定的研究成果,但由于中文信息处理的特殊性,中文人名消歧仍然存在着很多亟待解决的问题。本文在前人的研究基础上,首创利用构造三层特征空间与两阶段聚类算法相结合的策略进行中文人名消歧。本文的研究内容主要包括以下几个方面: (1)首先对数据预处理中涉及到的技术进行研究改进,分别提出了基于BK树检索的高性能大规模网页去重算法、改进了基于分布函数的网页正文抽取算法、提出了基于多重预处理与CRF相结合的中文分词算法。数据预处理将为后面的人名消歧准备所需的语料。 (2)本文提出了基于三层特征空间与两阶段聚类算法相结合的中文人名消歧。在特征选择及构造方面,根据不同文本特征对于区分人物作用的不同,构建三个不同层次的特征空间,并重点研究了如何采用机器学习算法构建语义特征,语义特征空间主要包括文本的领域属性特征、情感属性特征、句法属性特征和URL特征。在聚类策略设计方法,本文采用了两阶段聚类算法。首先在全局特征空间上,利用以基本属性序列对或唯一属性构建初始聚类中心的K-means算法,对文本进行初步聚类,得到类别粒度较大的类簇。最后采用EM算法对每个类簇再进行二次聚类,得到最终聚类结果。 (3)结合本文提出的算法,设计并实现了中文人物搜索系统。 本文在CIPS-SIGHAN2010中文人名消歧语料集上进行多个对比实验,实验结果表明,基于三层特征空间与两阶段聚类相结合的中文人名消歧效果良好,F-score达到了94.6%,比CIPS-SIGHAN2010中文人名消歧任务中排名第一的算法高了3.09%。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 综合;;2010年春夏季中国报纸十大流行语[J];城市公共交通;2010年09期
2 卢德友;陈红中;付强;;易学实用的绘图软件——GAXA电子图版[J];河南水利;2001年05期
3 ;自助是王道 酒店预订必看网站[J];电脑迷;2011年11期
4 ;开辟全信息标准数字化智能信息系统 探索数字化报纸实现的新路径[J];中国传媒科技;2011年07期
5 王文豪;周弘;;基于拼音的汉字模糊查询技术的探讨[J];计算机与信息技术;2011年Z2期
6 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期
7 杨振宇;;中英文混合字符串切分技术[J];电脑知识与技术;2011年14期
8 何素清;刘树春;;搜索引擎及其特色功能的比较与应用分析[J];现代情报;2011年06期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 周晓;李超;胡明涵;王会珍;;基于人物互斥属性的中文人名消歧[A];第六届全国信息检索学术会议论文集[C];2010年
2 李丽;孙甲申;王小捷;李江;宋占江;;基于属性信息的中文人名消歧[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年
4 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[A];第六届全国信息检索学术会议论文集[C];2010年
5 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 周云;王挺;易绵竹;王之元;;全词消歧的序列标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 冯志伟;;机器翻译系统消歧功能测试[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 杨晓安;;“没有VP的NP”型结构消歧的韵律手段[A];第九届中国语音学学术会议论文集[C];2010年
9 ;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 方向红;宋春阳;;介连兼类词“以”的句法语义区别特征及消歧策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 李力;广东云安建国内首个中文信息化城镇[N];经济日报;2004年
2 张素芳 译 陈永伶 校;《消歧公约》面临新挑战[N];中国妇女报;2000年
3 ;中文信息应用网络应运而生[N];网络世界;2001年
4 詹克山;清除IE地址栏中的中文信息[N];中国计算机报;2002年
5 记者 王兵;中国C网构建中文信息应用系统[N];人民邮电;2001年
6 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
7 北京科技大学法律系副教授 王竹青;《消歧公约》与中国司法实践[N];中国妇女报;2010年
8 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
9 教育部语信司;第十一届全国民族语言文字信息学术研讨会召开[N];语言文字周报;2007年
10 本报记者木佳;私企难入农业科研门[N];中华工商时报;2003年
中国博士学位论文全文数据库 前10条
1 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
2 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
3 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
6 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
7 蒋本蓉;“意思—文本”模式的词库理论与词库建设[D];黑龙江大学;2008年
8 于永新;基于本体的图像语义识别和检索研究[D];天津大学;2009年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 沈剑平;面向网络人物搜索的中文人名消歧[D];哈尔滨工业大学;2010年
2 裴飞;基于聚类的英汉人名消歧研究[D];苏州大学;2011年
3 李丽;基于属性信息的中文人名消歧研究[D];北京邮电大学;2012年
4 舒平芬;个性化搜索中用户语义意图自动识别技术研究[D];东北大学;2008年
5 王英帅;Web人名消歧方法的研究与实现[D];苏州大学;2010年
6 唐博蓉;基于维基百科的命名实体消歧研究[D];北京理工大学;2011年
7 叶君梅;英汉机器翻译中的歧义及消歧策略[D];广西师范大学;2002年
8 戴祥鹰;文本聚类在话题检测与人名消歧中的应用研究[D];哈尔滨工业大学;2010年
9 廖博森;自然语言处理中介词短语附着消歧问题的研究[D];电子科技大学;2010年
10 汤庄园;协作标注系统中的图片标签消歧方法研究[D];华北电力大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026