收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于主题要素的突发事件后续报道追踪方法研究

杨丽英  
【摘要】: 话题检测与跟踪(TDT)作为一项帮助人们解决信息过载问题的研究,以实现对新闻媒体信息流中新话题的自动识别和对已知话题的动态跟踪,以新闻专线、广播、电视等媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的报道,并将涉及某个话题的报道组织起来以某种方式呈现给用户。它的研究目标是要实现按话题查找、组织并利用来自多种新闻媒体的多语言信息。话题跟踪是TDT的子任务之一,本课题对突发事件的后续报道进行追踪,让人们可以知道该事件的最新动态,从整体上了解一个事件的全部细节以及该事件与其他事件之间的联系。 本文研究了基于主题要素的向量空间模型,采用查询向量的话题跟踪方法,对突发事件新闻的后续报道进行追踪。考虑到新闻报道6大基本要素(5W1H)的重要性,本文尝试性地利用报道中的时间信息和地点信息以及事件内容来表示新闻文档,从而便于对突发事件新闻的后续报道进行追踪,提高跟踪效率。本文的主要工作有: 1.通过对网上下载的突发事件新闻报道进行统计,深入分析了突发事件新闻报道本身特点以及与相关后续报道之间的联系,以便利用时间信息和地点信息。同时,根据国家的行政区域划分建立了包括省、市、区、县、乡镇等的地名库。此外,对事件、报道、后续报道等相关概念进行了扩充。 2.对时间信息和地点信息的使用特点进行了分析,通过命名实体器识别,抽取并规范了新闻文本中的时间和地名。对于时间信息,比较了事件信息和报道时间信息之间的先后关系。通过地名粒度之间的相关度和地名在新闻文本中的位置等信息来计算地名之间的相似度。 3.将时间信息、地名信息与事件内容结合起来表示新闻文档,提出了基于主题要素的突发事件新闻追踪算法,利用时空信息提高事件跟踪效率。 4.设计了一个实验系统,可以抽取地名和报道时间并进行相似度计算和突发事件新闻的跟踪。 为了证明本文研究方法的有效性,我们从收集的突发事件新闻语料中选择了20个事件共880篇报道进行了实验,实验结果表明本文所提出的方法在一定程度上提高了话题跟踪的效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 史豪杰;邢清华;刘付显;;基于引入概率的范例匹配新方法[J];计算机工程与应用;2009年10期
2 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
3 赵俊杰;胡学钢;;基于文本分类的文档相似度计算[J];微型电脑应用;2008年12期
4 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期
5 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期
6 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期
7 缪勇;宋斌;;基于Web日志的典型匿名用户路径挖掘研究[J];计算机应用;2009年10期
8 张爱琦;左万利;王英;梁浩;;基于多个领域本体的文本层次被定义聚类方法[J];计算机科学;2010年03期
9 江耿豪;;基于VisualProlog的自动答疑系统设计与实现[J];现代教育技术;2010年07期
10 苏慧群;;XML文档数对序列模型与结构相似度算法研究[J];湖南广播电视大学学报;2010年03期
11 聂规划;章志龙;王锐;;基于语义词典的电子商务推荐系统模型研究[J];情报杂志;2009年S2期
12 周俏丽;蔡东风;吕德新;朱江涛;吴英泽;;基于语义相似度的句法歧义结构消解[J];沈阳航空工业学院学报;2006年01期
13 赖擎;曹力立;;受限领域中文问答系统的中心句识别的研究[J];计算机时代;2006年02期
14 张亮;冯冲;陈肇雄;黄河燕;;基于语句相似度计算的FAQ自动回复系统设计与实现[J];小型微型计算机系统;2006年04期
15 裘伟;;一种基于相似度及复杂度的人眼定位算法[J];苏州大学学报(工科版);2006年06期
16 俞敏;杨力;;实例推理在光学加工参数优化中的研究与应用[J];红外与激光工程;2006年S2期
17 王少鹏;孙敏;;基于网页标识的图像内容过滤防火墙的研究[J];计算机工程与应用;2008年01期
18 张国敏;殷建平;祝恩;毛玲;;基于极坐标区间运算的2D形状匹配[J];计算机研究与发展;2008年S1期
19 陈万勇;余日泰;万健;;基于余弦相似度分组的P2P搜索机制[J];计算机工程;2009年12期
20 操牡丹;何前锋;王柏;;中医药方剂相似度模型[J];计算机工程;2009年16期
中国重要会议论文全文数据库 前10条
1 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
2 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 李德仁;;地球空间信息学的机遇[A];中国地理信息系统协会第八届年会论文集[C];2004年
7 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 俞国民;;对建立全国海区差分GPS导航网的设想[A];中国航海学会优秀论文文摘及学术会议论文目次汇编(1990—1991)[C];1992年
9 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 张兵;时空信息辅助下的高光谱数据挖掘[D];中国科学院研究生院(遥感应用研究所);2002年
4 李宏坤;基于信息融合技术船舶柴油机故障诊断方法的研究与应用[D];大连理工大学;2003年
5 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
6 史先敏;中国栽培灵芝三萜成分的高效液相指纹图谱研究[D];南京农业大学;2008年
7 李进;两性霉素B有关物质的质量研究与多元组分药物的质量控制和分析[D];中国协和医科大学;2007年
8 卢湖川;人脸识别中几个关键算法研究[D];大连理工大学;2008年
9 王吉华;基于特征函数的产品造型进化设计研究[D];山东师范大学;2009年
10 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 杨丽英;基于主题要素的突发事件后续报道追踪方法研究[D];山西大学;2008年
2 王德刚;智能答疑系统的设计[D];内蒙古大学;2008年
3 张宇;关系数据库中基于元组的关键词查询研究[D];燕山大学;2009年
4 张平生;计算机辅助飞机协调图表设计技术研究[D];西北工业大学;2007年
5 郭竞;三维地形模型检索系统设计与实现[D];西北大学;2007年
6 王婷;OWL本体之间概念相似度计算研究[D];河海大学;2007年
7 蔡元哲;本体实例学习关键技术的研究[D];中国人民大学;2008年
8 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
9 王少鹏;基于网页标识的图像内容过滤防火墙的设计[D];山西大学;2008年
10 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
中国重要报纸全文数据库 前10条
1 李德仁;论天地一体化的大测绘[N];中国测绘报;2004年
2 金振文;用法律说话 靠政府解难[N];华北电力报;2004年
3 张旭东;Intel终于表态不给质保![N];中国计算机报;2003年
4 本报记者 于小晗;线虫对付小木蠹蛾很有效[N];科技日报;2000年
5 高科丽;宁夏联通构建“农业新时空信息网”[N];人民邮电;2006年
6 刘雪梅;为什么受伤的总是我[N];中国工业报;2003年
7 本报记者 刘莹;却在灯火阑珊处[N];科技日报;2000年
8 高科丽;宁夏启动农业新时空信息网建设[N];人民邮电;2006年
9 ;百万条致富信息送到农民手中[N];华兴时报;2007年
10 林娟;被欺诈的购房者讨得说法[N];福建日报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978