动态逻辑主题建模与可视化
【摘要】:新闻报道是许多应用领域如社会文化研究、商业决策的重要信息来源。伴随着信息技术的发展,传统纸质新闻逐渐向新媒体新闻转变,使得新闻数量有了爆炸性的增长。当前新闻文本的内容量已经远远超出了正常读者所能阅读的范围,而这些新闻文本都是围绕着某些新闻主题进行的叙述。因此,新闻主题包含了对被关注事件中重要因素的提炼。通过新闻主题分析可以学习出新闻文本的隐含语义、时空上下文以及随时间的变化过程,因此它是快速理解新闻文本的关键,有助于人们了解相关领域的最新热点,并基于此做恰当的判断或采取进一步合理的行动。本文基于以上应用需求,实现了一个自动化的新闻主题分析系统。近年来数据挖掘和自然语言处理等技术得到了极大的发展,使得对文本所蕴含丰富语义和主题进行深度挖掘成为可能。同时,信息的超载使主题可视化成为一个新的挑战。本系统也从这两点出发,提出了一种适用于新闻文本的主题建模算法,并根据新闻特点将建模结果用可视化技术予以展示。本文主要解决了以下三个的问题:1.如何生成更精确的且易于被人类理解的新闻主题,本文提出的动态逻辑主题建模算法从时间因子和人工规则两方面对传统算法进行了改进,以生成有含义的主题为目标。2.如何设计新闻主题可视化方案,本文提出的方案可以使用户快速清晰地理解新闻脉络。3.如何将主题模型与可视化技术结合起来,本文实现了一个从未处理文本输入到可视化主题展示的完整系统。本文对纽约时报数据集进行了主题建模和可视化实验,实验结果表明,本文提出的主题建模算法在生成主题的清晰度以及可理解性等方面优于传统的模型,本文设计的可视化方案适用于对新闻主题展示。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.41