收藏本站
《上海交通大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

新闻线索与主题探测

李峰  
【摘要】: 网络新闻已经成为互联网时代人们获取信息、了解天下的主要渠道。但同其他网络资源一样,存在着信息过载的问题。已有的信息检索的成功应用--搜索引擎,初步解决了用户快速获取自己想要的信息这一问题。凭借强大的搜索功能,用户可以很快的找到其关注事件的相关新闻。但对于影响大、背景复杂的事件,简单的新闻罗列与组织(新闻分类)已经无法满足互联网时代人们快速吸收、理解信息的要求。自动寻找话题内的结构,帮助用户理解把握事件的全局概貌和来龙去脉,理清事件的内在逻辑,成为当下的一个研究热点。 本文首先提出了话题结构化的内容,给出了自己的定义,认为一个话题的自动组织包含以下四点内容:一个话题有多条发展线索;每条发展线索形成多个事件主题;主题和主题之间有着因果联系和细化联系;不同主题有着不同的影响力(重要度)。根据这个定义,我们首先使用基于命名实体的单遍增量聚类得到话题的线索,在聚类中我们提出了不同于单连接和全连接的混合连接算法;然后我们在每条线索内使用NMF聚类得到线索包含的主题;接着我们基于相似度和是否共现计算了主题的相关性;最后我们根据主题包含的新闻数量和相关的主题数,推出主题的重要度。 本文综合网络新闻常用的RSS新闻发布技术和开源全文检索引擎Lucene实现了一个原型系统。并设计了系列实验验证了两次核心聚类算法的有效性。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【相似文献】
中国硕士学位论文全文数据库 前1条
1 李峰;新闻线索与主题探测[D];上海交通大学;2008年
中国知网广告投放
相关机构
>上海交通大学
相关作者
>李峰
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026