收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于系统相似模型与持续时间的话题检测技术研究

王金柱  
【摘要】: 话题检测与跟踪(Topic Detection and Tracking,TDT)作为一个新兴的自然语言处理研究方向,它的研究主要涉及了自然语言处理、信息检索、信息过滤、人工智能和机器学习等多个领域,是一个跨学科领域的综合性课题。话题检测与跟踪旨在基于事件对信息进行组织和利用,同时也是为了应对信息过载问题而提出的一项应用研究。TDT是指在新闻专线和广播新闻等来源的新闻数据流中自动的发现话题并把话题相关的内容联系在一起的技术。自1996年TDT概念提出以来,国内外许多研究机构都参与了这一技术的研究。目前TDT研究已经引起了国内外研究者们的广泛关注,逐渐成为自然语言处理领域的一个研究热点。 本文以文本形式的英文新闻报道流为处理对象,对话题检测任务进行了深入细致的研究。我们首先介绍了话题检测与跟踪技术的相关概念,以及近年来的发展动向。然后重点介绍了系统相似模型及系统相似度计算方法。本文分析词变体与缩略词在话题检测与跟踪中的作用,研究并实现了一种基于形态学与语义相结合的词变体与缩略词的识别方法。 本文针对话题检测研究中存在的“难以区分”的难题,并分析了英语新闻报道内容及书写形式上的特点提出了一种基于语义划分的话题检测技术。实验证明,基于语义划分的话题检测算法对于解决“难以区分”问题非常有效。最后探索了时间信息在话题检测中的应用研究,研究并实现了基于话题持续时间的动态阈值模型,并结合其特点采用了一种比值法来选择和话题最相似的报道。通过在英语语料上对该动态阈值模型进行实验证明基于话题持续时间的动态阈值模型配合比值法的使用大大提高了系统的整体性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王凤玲;;基于缩略语分析的中文报道关系识别研究[J];计算机工程;2011年18期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 关毅;王晓龙;王强;;论系统相似的度量[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 毋非;封化民;申晓晔;;一种基于容错粗糙集聚类方法的话题检测与跟踪框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前1条
1 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前3条
1 王金柱;基于系统相似模型与持续时间的话题检测技术研究[D];复旦大学;2009年
2 张楷卉;面向新闻报道的话题检测技术研究[D];哈尔滨工程大学;2008年
3 毋非;基于容错粗糙集的话题检测与跟踪方法研究[D];西安电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978