收藏本站
《哈尔滨工业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义角色标注的微博人物关系抽取

廉营  
【摘要】:社交网络上的人物社会关系是分析人物网络行为的一类重要信息,如何高效准确地从社交网络上抽取人物关系信息,是本文研究的重点本文首先提出一种基于特征提取的人物关系分类的改进方法,然后再将这种方法应用到微博语料中,通过对新浪微博中两个用户之间的微博评论等含有二人关系的语料内容进行采集分析和过滤处理,然后进行语义角色标注和句法结构分析,提取人物关系特征,训练人物关系模版,进而实现人物关系分类本文的研究内容主要包括以下几个方面: 首先,本文使用基于语义角色标注的方法来提取人物关系特征通过对中文语句语义角色标注,将两个人名实体在语句中的位置和成分以及语句结构类型作为人物关系特征,并通过上述分析进行选取核心特征词,丰富了人物关系特征的种类 其次,本文实现对微博中的语料进行人物关系抽取本文使用新浪微博的API接口获取部分新浪微博语料,针对微博语料不规则不完整的特点,本文采用对微博语料进行规则填充的方法,使其符合标准的中文语句结构,再使用本文提出的改进方法对微博中的语料进行分析,抽取语料中的人物关系,对新浪微博中的人物的虚拟关系圈进行关系抽取 最后,本文使用Flex技术实现微博用户人物关系网的可视化分析本文使用Flex的开源可视化框架Birdeye来实现可视化模块,构建人物关系网络拓扑图,并对于微博用户的好友活跃度分析好友性别区域分布等信息使用直方图和饼状图的方式来实现 为了证实基于语义角色标注的特征提取方法的关系抽取效果,本文分别对新闻类语料和微博类语料进行实验,在新闻类语料的实验中选用ǎ人民日报ǐ语料中3000个含有两个人名实体的语句,微博类语料选用了3000个含有两个人名实体的微博语句,人工对这些人物关系进行标注,分别使用基于语义角色标注的特征提取方法和只选用上下文词集为特征提取方法进行对比实验在新闻类语料中本文提出的方法取得了的准确率和召回率分别81.17%和81.00%,选用上下文词集特征方法的准确率和召回率分别为72.32%和72.35%;微博类语料中本文提出的方法取得的准确率和召回率分别为71.65%和71.70%,后者的准确率和召回率分别为62.67%和62.60%通过实验表明无论是对于新闻类语料还是微博类语料,本文提出的基于语义角色标注的特征提取方法在人物关系抽取的问题上与选用上下文词集作为特征的方法相比都能够取得更优的结果
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;TP393.092

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
2 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
3 于江德;樊孝忠;庞文博;;事件信息抽取中语义角色标注研究[J];计算机科学;2008年03期
4 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
5 刘怀军;车万翔;刘挺;;中文语义角色标注的特征工程[J];中文信息学报;2007年01期
6 黄晨;钱龙华;周国栋;朱巧明;;基于卷积树核的无指导中文实体关系抽取研究[J];中文信息学报;2010年04期
7 王鑫;孙薇薇;穗志方;;基于浅层句法分析的中文语义角色标注研究[J];中文信息学报;2011年01期
8 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期
9 刘挺;车万翔;李生;;基于最大熵分类器的语义角色标注[J];软件学报;2007年03期
10 李世奇;赵铁军;李晗静;刘鹏远;刘水;;基于特征组合的中文语义角色标注[J];软件学报;2011年02期
中国重要会议论文全文数据库 前1条
1 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前1条
1 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前1条
1 宁海燕;实体关系自动抽取技术的比较研究[D];哈尔滨工业大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
2 苏林忠;;两种学习算法在算术关系抽取中的应用比较[J];电脑知识与技术;2010年19期
3 李维刚;刘挺;李生;;基于网络挖掘的实体关系元组自动获取[J];电子学报;2007年11期
4 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
5 季元叶;;语言学特征在中文实体间语义关系抽取中的应用[J];福建电脑;2010年06期
6 朱译翔;;中文名词性谓词的语义角色标注的研究[J];福建电脑;2010年09期
7 刘健苗;王浩畅;赵铁军;;基于TSVM与主动学习融合的蛋白质交互作用关系抽取[J];高技术通讯;2009年05期
8 朱峰;;一个中文语义关系抽取系统的设计与实现[J];中国科教创新导刊;2009年34期
9 奚斌;周国栋;钱龙华;潘珅;;基于分层策略的弱指导语义关系抽取[J];广西师范大学学报(自然科学版);2008年01期
10 张国安;钟绍辉;;基于k均值聚类的微博用户分类的研究[J];电脑知识与技术;2012年26期
中国重要会议论文全文数据库 前10条
1 刘俊;张益肇;;基于统计的中文姓名提取方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 那顺乌日图;雪艳;淑琴;敖日格乐;;蒙古文人名自动识别研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 刘开瑛;;汉语框架语义网(CFN)构建现状[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 陈雪艳;吕国英;李茹;刘伟;;基于层叠条件随机场的句法语义自动标注研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 丁伟伟;常宝宝;;基于最大熵原则的汉语语义角色分类[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 汪红林;丁金涛;王红玲;周国栋;;基于依存关系的语义角色标注[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 郝志新;王轩;李露;范士喜;;基于句法依存关系的语义角色标注[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 赫兰光;王轩;李露;范士喜;;基于最大熵分类器的谓词识别与词义消歧[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
3 谢琪;基于本体方法构建中医药概念信息模型的方法学示范研究[D];中国中医科学院;2011年
4 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
5 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
6 李勤超;基于本体的地理信息语义转换模型与方法研究[D];解放军信息工程大学;2011年
7 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
8 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
9 李志圣;单类中心学习及其在二元关系抽取中的应用[D];天津大学;2008年
10 黄永文;中文产品评论挖掘关键技术研究[D];重庆大学;2009年
中国硕士学位论文全文数据库 前10条
1 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
7 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
8 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
9 陈琨;基于知识图的领域本体构建方法研究[D];西北大学;2011年
10 李海光;基于位置和语义特征的中文命名实体关系抽取研究[D];合肥工业大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 于江德;樊孝忠;庞文博;余正涛;;基于条件随机场的语义角色标注(英文)[J];Journal of Southeast University(English Edition);2007年03期
3 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
4 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 贾美英;杨炳儒;郑德权;杨靖;;采用CRF技术的军事情报术语自动抽取研究[J];计算机工程与应用;2009年32期
7 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
8 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
9 张锋,许云,侯艳,樊孝忠;基于互信息的中文术语抽取系统[J];计算机应用研究;2005年05期
10 姚峰;;Java平台中Base64编码/解码算法的改进[J];计算机应用与软件;2008年12期
中国博士学位论文全文数据库 前2条
1 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
2 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前3条
1 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
2 张志田;无监督关系抽取方法研究[D];哈尔滨工业大学;2007年
3 黄鑫;基于特征向量的中文实体间语义关系抽取研究[D];苏州大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 孔芳;朱巧明;周国栋;钱培德;;基于中心理论的指代消解研究[J];计算机科学;2009年06期
2 卢俊;;对两篇中国神七发射新闻报道的分析[J];现代商贸工业;2009年01期
3 梅勇,王群生,徐秉铮;基于 FoxPro for Windows 的汉语语料库系统的构造[J];华南理工大学学报(自然科学版);1998年01期
4 王延栋;;从《战国策》看《汉语大词典》书证迟后[J];南开语言学刊;2004年02期
5 洪晓鹏,姚鸿勋,徐铭辉;基于句子级的唇读语料库及其切分算法[J];计算机工程与应用;2005年03期
6 陶明忠;马玉蕾;;框架网络与汉语信息处理[J];语言文字应用;2007年04期
7 贾君枝;赵文娟;王东元;;汉语框架网络知识库的语义角色特征识别[J];图书情报工作;2009年17期
8 周明海;亢世勇;刘金凤;;面向信息处理的大规模句子语义知识库研究述要[J];当代外语研究;2011年10期
9 李良富,樊孝忠,李宏乔;语义相似计算驱动领域自动问答[J];北京理工大学学报;2005年11期
10 杨选选;张蕾;;基于语义角色和概念图的信息抽取模型[J];计算机应用;2010年02期
中国重要会议论文全文数据库 前10条
1 杨敏;常宝宝;;基于北大网库的语义角色分类[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 王步康;王红玲;袁晓虹;周国栋;;基于树核函数的中文语义角色标注研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 王鑫;穗志方;李芸;;基于依存树距离的语义角色识别方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 周明海;亢世勇;;语义角色句法实现的词汇语义制约信息库的建设及其应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 吾买尔江·库尔班;阿里甫·库尔班;;维吾尔语框架语义知识库语义角色描述体系研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 王荣洋;鞠久朋;李寿山;周国栋;;基于CRFs的评价对象抽取特征研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李琳;毕玉德;陈洁;;朝鲜语对格的语义角色分析[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
10 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 付艳霞;卢一萍:《索狼荒原》[N];文艺报;2011年
6 本报记者 曹亚宁;《米老鼠》:儿童的乐园[N];中国新闻出版报;2010年
7 范咏戈;善缘构造和谐[N];文艺报;2007年
8 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
9 记者 陈香;石钟山新作《地下地上》惹官司[N];中华读书报;2007年
10 王安忆;低地的命运[N];东方早报;2011年
中国博士学位论文全文数据库 前10条
1 包晓荣;基于语料库的蒙古语简单句施事和当事语义角色特征研究[D];内蒙古大学;2013年
2 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
3 孔芳;指代消解关键问题研究[D];苏州大学;2009年
4 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 张占山;语义角色视角下的谓词同义词辨析[D];厦门大学;2006年
7 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
8 权震红;韩国语非叙述性名词配价研究[D];延边大学;2007年
9 周日安;名名组合的句法语义研究[D];暨南大学;2007年
10 潘泰;现代汉语移动义动词的句法语义研究[D];华中师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 廉营;基于语义角色标注的微博人物关系抽取[D];哈尔滨工业大学;2013年
2 袁晓虹;基于依存关系的中文语义角色标注研究[D];苏州大学;2010年
3 白雪;基于结构学习的语义角色标注[D];北京邮电大学;2010年
4 李永强;基于马尔可夫逻辑网络的语义角色标注[D];哈尔滨工业大学;2010年
5 伊好斯白音;蒙古语名词短语语义角色的统计分析研究[D];内蒙古大学;2012年
6 张超辉;中文复杂句语义角色标注[D];北京邮电大学;2010年
7 吴方磊;基于树核方法的中文语义角色标注研究[D];苏州大学;2011年
8 路青;基于特征选择的中文语义角色标注研究[D];曲阜师范大学;2012年
9 朱译翔;中文名词性谓词的语义角色标注研究[D];苏州大学;2011年
10 王步康;基于依存树核函数的语义角色标注研究[D];苏州大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026