收藏本站
《国防科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

新闻网页中人物实体关系提取技术研究

邹永强  
【摘要】:互联网经过多年的快速发展已经积累了海量的信息资源,其中所包含的人物之间的关系是一种有重要价值的信息,它在情报分析、网络舆情监控、社会网络分析等领域有着十分重要的应用。研究者已经意识到这一点,他们纷纷展开相关研究。新闻网页由于其用语规范、报道更新及时、信息可信度高而受到研究者们的青睐。新闻网页已经成为基于互联网的人物实体关系提取研究的主要素材。 基于以上认识,本文根据现实需要围绕新闻网页中人物实体关系提取这个主题开展了多项研究,这些研究包括: 1、在分析了通用网页采集器的特点和不足的基础上,结合具体应用背景和实际需求,为了准确而高效的下载新闻网页,本文根据新闻网页URL的特点构造了新闻网页URL模式,据此设计并实现了新闻主题网页采集器,很好的完成了网页采集任务。 2、仔细分析了目前网页过滤算法效率不高的原因,在总结了新闻网页特点的基础上,针对新闻网页提出了基于文本块字符数统计的过滤算法,通过实验证实了算法的有效性。 3、针对支持向量机(SVM)在多类划分上的不足,引入kNN算法来消除拒分向量。由于kNN算法时空开销比较大,当向量数目多的时候其分类性能很差,这将严重影响最终的人物关系提取。所以本文提出了一种kNN的改进算法,极大的提高了它的性能。 4、本文在最后设计并实现了一个新闻网页中人物关系提取原型系统。这个系统集主题网页采集、中文分词、词性标注、人物信息提取、关系提取和关系存储于一体,是新闻网页中人物关系提取的整体实现,也是检验本文所研究的方法的最好方式。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

【引证文献】
中国硕士学位论文全文数据库 前2条
1 李红亮;基于规则的百科人物属性抽取算法的研究[D];西南交通大学;2013年
2 徐斌;特定实体关系的识别和抽取及其系统的设计与实现[D];华南理工大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
3 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
4 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
5 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
6 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
7 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
8 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
9 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
10 王振华,孔祥龙,陆汝占,刘绍明;结合决策树方法的中文姓名识别[J];中文信息学报;2004年06期
中国重要会议论文全文数据库 前1条
1 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
2 孔芳;指代消解关键问题研究[D];苏州大学;2009年
3 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前8条
1 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
2 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
3 金可佳;统计与规则相结合的指代消解[D];武汉科技大学;2009年
4 徐超;基于DOM的网页净化方法研究[D];中国石油大学;2009年
5 许晓丽;面向信息抽取的中文命名实体识别研究[D];哈尔滨工程大学;2009年
6 张骥;基于核函数的中文实体关系抽取新方法[D];天津大学;2009年
7 苏秀芝;网页去噪与特征提取算法的研究及实现[D];西南交通大学;2010年
8 赵清华;SOA体系下分布式空间信息查询技术研究[D];国防科学技术大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 李淑华;徐良培;陶建平;;基于支持向量机的我国水产品出口贸易风险预警研究[J];安徽农业科学;2008年30期
3 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
4 赵万明;黄彦全;谌贵辉;;基于支持向量机的农村用电量需求预测[J];安徽农业科学;2009年25期
5 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
6 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 刘翠红;;基于SVR的船舶溢油事故预测[J];环境科学与管理;2008年09期
9 张贵,乔春生;应用支持向量机回归确定岩体强度指标[J];北方交通大学学报;2004年01期
10 张玉川;张作泉;;支持向量机在股票价格预测中的应用[J];北京交通大学学报;2007年06期
中国重要会议论文全文数据库 前10条
1 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
2 王红霞;田国会;李晓磊;卜范骞;;基于地标信息融合的家庭环境机器人组合导航[A];第二十六届中国控制会议论文集[C];2007年
3 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
4 曹爱增;陈月婷;魏军;李金屏;;一种基于EDAs和聚类分析的杂合进化算法[A];第二十六届中国控制会议论文集[C];2007年
5 李鑫;李力争;;基于模板匹配的固态流体流速检测算法[A];第二十七届中国控制会议论文集[C];2008年
6 李潮潮;迟凯;付芳萍;车文刚;赵庆江;;基于模糊聚类的证券价格对公共信息的反应强度划分[A];第二十九届中国控制会议论文集[C];2010年
7 赵庆江;迟凯;付芳萍;李潮潮;车文刚;;基于FCM的模糊时间序列模型及人民币汇率预测[A];第二十九届中国控制会议论文集[C];2010年
8 康传会;汪晓东;汪轲;常健丽;;基于最小二乘支持向量机的迟滞建模方法[A];第二十九届中国控制会议论文集[C];2010年
9 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
10 陈晓清;马君国;赵宏钟;付强;;基于二维小波变换的激光成像雷达目标识别算法[A];中国光学学会2010年光学大会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 李晚龙;六自由度Stewart平台分散智能控制研究[D];哈尔滨工程大学;2010年
5 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
6 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
7 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
8 易吉良;基于S变换的电能质量扰动分析[D];湖南大学;2010年
9 陈韶斌;基于知识推理和视觉机理的遥感图像目标识别方法研究[D];华中科技大学;2010年
10 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 徐芳芳;优化问题的PVD算法研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
4 李海清;支持向量机在金融市场预测中的应用[D];辽宁师范大学;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 李会臣;基于时频分析的齿轮故障机理及诊断研究[D];郑州大学;2010年
7 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
8 宋晓玥;基于TDPCA与SPIHT的高光谱压缩和降维算法研究[D];哈尔滨工程大学;2009年
9 邓禄群;高光谱图像类别信息相关技术研究[D];哈尔滨工程大学;2010年
10 欧阳杰;基于灰度图像的信息隐藏算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 杨树林;;正则表达式在网络教学系统中的应用[J];北京印刷学院学报;2005年04期
2 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
3 白红哲,马立勇;基于正则表达式的话务报告处理软件的实现[J];通信管理与技术;2005年02期
4 于江德;樊孝忠;尹继豪;;基于条件随机场的中文科研论文信息抽取[J];华南理工大学学报(自然科学版);2007年09期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
8 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
9 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
10 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
中国博士学位论文全文数据库 前5条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
4 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
5 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前8条
1 张练;领域信息抽取相关技术研究[D];哈尔滨工业大学;2010年
2 李向春;基于规则的Web文本信息抽取技术的研究[D];电子科技大学;2011年
3 董之茵;网页信息提取与净化的研究[D];吉林大学;2008年
4 徐芬;基于SVM和TSVM的中文实体关系抽取[D];国防科学技术大学;2007年
5 雷佩莹;基于Web的新闻信息抽取系统设计与实现[D];西北大学;2008年
6 黄鑫;基于特征向量的中文实体间语义关系抽取研究[D];苏州大学;2009年
7 任宁;大规模真实文本中的人物职衔信息提取研究[D];北京语言大学;2008年
8 郝冬生;基于网页完整理解的人物信息抽取[D];吉林大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期
2 龚健雅;李德仁;;论地球空间信息服务技术的发展[J];测绘通报;2008年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 邬伦,张毅;分布式多空间数据库系统的集成技术[J];地理学与国土研究;2002年01期
5 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
6 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
7 宋亚超,闾国年,张宏;基于WebService的Internet GIS集成与应用[J];地球信息科学;2004年01期
8 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
9 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
10 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
中国重要会议论文全文数据库 前2条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前4条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 贾文珏;分布式GIS服务链集成关键技术[D];武汉大学;2005年
3 陈荦;分布式地理空间数据服务集成技术研究[D];国防科学技术大学;2005年
4 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
2 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
3 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
4 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
5 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
6 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
7 徐中一;中文信息抽取中的若干问题研究[D];吉林大学;2007年
8 台德艺;基于特征权重算法的文本分类研究[D];合肥工业大学;2007年
9 谢光华;中文网页自动分类的研究及其应用[D];大连理工大学;2007年
10 万乐;网页的预处理技术[D];吉林大学;2008年
【相似文献】
中国期刊全文数据库 前6条
1 朱建华;;一种基于Web的新闻抽取方法[J];情报杂志;2010年S2期
2 罗永莲;秦振吉;;新闻网页主题内容提取方法研究[J];微计算机应用;2007年05期
3 胡学钢;朱珠;吴共庆;;新闻网页自动识别的相关特征研究[J];广西师范大学学报(自然科学版);2008年03期
4 钱爱兵;江岚;;基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J];情报理论与实践;2008年06期
5 罗永莲;张永奎;;基于发布时间的新闻网页去重方法研究[J];计算机工程与应用;2007年06期
6 吴定明;赵东岩;;一种互联网新闻网页的采集分析方法[J];计算机工程与应用;2007年36期
中国硕士学位论文全文数据库 前2条
1 王星;新闻网页抽取技术的研究与实现[D];河北工业大学;2011年
2 毛新武;基于组合特征的中文新闻网页关键词提取研究[D];北京林业大学;2013年
中国知网广告投放
相关机构
>河北工业大学
>北京林业大学
相关作者
>王星 >毛新武
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026