收藏本站
《国防科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

新闻网页中人物实体关系提取技术研究

邹永强  
【摘要】:互联网经过多年的快速发展已经积累了海量的信息资源,其中所包含的人物之间的关系是一种有重要价值的信息,它在情报分析、网络舆情监控、社会网络分析等领域有着十分重要的应用。研究者已经意识到这一点,他们纷纷展开相关研究。新闻网页由于其用语规范、报道更新及时、信息可信度高而受到研究者们的青睐。新闻网页已经成为基于互联网的人物实体关系提取研究的主要素材。 基于以上认识,本文根据现实需要围绕新闻网页中人物实体关系提取这个主题开展了多项研究,这些研究包括: 1、在分析了通用网页采集器的特点和不足的基础上,结合具体应用背景和实际需求,为了准确而高效的下载新闻网页,本文根据新闻网页URL的特点构造了新闻网页URL模式,据此设计并实现了新闻主题网页采集器,很好的完成了网页采集任务。 2、仔细分析了目前网页过滤算法效率不高的原因,在总结了新闻网页特点的基础上,针对新闻网页提出了基于文本块字符数统计的过滤算法,通过实验证实了算法的有效性。 3、针对支持向量机(SVM)在多类划分上的不足,引入kNN算法来消除拒分向量。由于kNN算法时空开销比较大,当向量数目多的时候其分类性能很差,这将严重影响最终的人物关系提取。所以本文提出了一种kNN的改进算法,极大的提高了它的性能。 4、本文在最后设计并实现了一个新闻网页中人物关系提取原型系统。这个系统集主题网页采集、中文分词、词性标注、人物信息提取、关系提取和关系存储于一体,是新闻网页中人物关系提取的整体实现,也是检验本文所研究的方法的最好方式。
【关键词】:新闻网页 主题网页采集器 新闻网页过滤 支持向量机 kNN 人物实体关系提取 关系提取原型系统
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092
【目录】:
  • 摘要8-9
  • ABSTRACT9-10
  • 第一章 绪论10-17
  • 1.1 研究背景10-11
  • 1.2 国内外研究现状11-14
  • 1.2.1 网页采集器的研究现状11-12
  • 1.2.2 实体关系提取的研究现状12-14
  • 1.3 研究内容和意义14-15
  • 1.4 论文的组织15-17
  • 第二章 网页中人物实体关系提取相关技术概述17-27
  • 2.1 网页解析技术17-19
  • 2.1.1 基于网页模板的网页解析方法17-18
  • 2.1.2 基于网页可视化的网页解析方法18
  • 2.1.3 基于网页DOM 树的网页解析18-19
  • 2.2 实体关系提取19-26
  • 2.2.1 实体关系提取概述19-22
  • 2.2.2 实体关系提取的主要技术22-25
  • 2.2.3 实体关系提取面临的主要问题25-26
  • 2.3 本章小结26-27
  • 第三章 基于WEB 的数据采集与人物信息提取27-46
  • 3.1 网页采集器的设计27-35
  • 3.1.1 网页采集器27-31
  • 3.1.2 新闻主题网页采集器31-35
  • 3.2 网页的过滤35-42
  • 3.2.1 新闻网页的特点36-37
  • 3.2.2 基于文本块统计的新闻网页提取算法37-41
  • 3.2.3 基于文本块统计的新闻网页噪声过滤算法验证41-42
  • 3.3 人名及人物属性信息提取42-45
  • 3.3.1 文本中人名识别42-43
  • 3.3.2 文本中人物属性信息的识别与提取43-45
  • 3.4 本章小结45-46
  • 第四章 人物实体关系提取的MSVM-kNN 方法研究46-65
  • 4.1 支持向量机46-49
  • 4.1.1 SVM 实现分类的理论基础46-48
  • 4.1.2 SVM 实现多类划分48-49
  • 4.2 kNN 分类技术研究49-51
  • 4.2.1 kNN 算法49-50
  • 4.2.2 kNN 在处理分类问题时的不足50-51
  • 4.3 MSVM-kNN 算法及其改进51-58
  • 4.3.1 MSVM-kNN 算法51-53
  • 4.3.2 改进的MSVM-kNN53-58
  • 4.4 基于MSVM-kNN 改进算法的人物实体关系抽取实验58-64
  • 4.4.1 语料准备59
  • 4.4.2 实验方案设计59-61
  • 4.4.3 实验的结果与分析61-64
  • 4.5 本章小结64-65
  • 第五章 人物实体关系提取系统设计与实现65-74
  • 5.1 人物实体关系提取原型系统框架65-68
  • 5.2 系统功能实现68-73
  • 5.2.1 新闻网页抓取68-71
  • 5.2.2 中文人名识别与人物属性信息提取71-72
  • 5.2.3 人物关系查询功能72-73
  • 5.3 本章小结73-74
  • 第六章 总结与展望74-76
  • 6.1 主要研究成果74-75
  • 6.2 进一步的研究方向75-76
  • 致谢76-78
  • 参考文献78-85
  • 作者在学期间取得的学术成果85

【相似文献】
中国期刊全文数据库 前10条
1 席峰;;基于命名实体及关系的网页文本关联分析方法[J];微电子学与计算机;2011年08期
2 郭剑毅;雷春雅;余正涛;苏磊;赵君;田维;;基于信息熵的半监督领域实体关系抽取研究[J];山东大学学报(工学版);2011年04期
3 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
4 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
5 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
6 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
7 陈淼;;基于数据包分析的网页还原技术研究[J];中国科技信息;2011年16期
8 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
9 杨智勇;曹航;;网页资源长期保存的标准和技术研究[J];档案;2011年03期
10 王静;刘观宁;张钰辉;;网页去重的改进算法[J];微型机与应用;2011年12期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 张苇如;孙乐;韩先培;;基于维基百科和模式聚类的实体关系抽取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
5 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
8 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
9 石志强;李涛;孙延涛;;基于以太网的宽带社区网络管理系统[A];2003年通信软件技术学术年会论文集[C];2003年
10 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
6 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
7 路人甲;请个专家来贴图[N];电脑报;2005年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
6 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
7 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
8 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
9 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
10 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 邹永强;新闻网页中人物实体关系提取技术研究[D];国防科学技术大学;2011年
7 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
8 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
9 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
10 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026