基于主题模型的科技文献主题探测研究
【摘要】:信息时代的到来,促使科学研究领域也有了突飞猛进的发展,由此产生的科技文献资源大量增长,但要能更精确的找到我们所需要的信息却变得难上加难。对于大量的论文期刊,仅采用简单的关键词搜索,其搜索结果准确性较低。因此我们需要用新的算法、新的工具来帮助我们整理、搜索如此大量的信息。本文以生物信息学的科技文献为例,作为生物信息学领域的一个新的尝试,将LDA模型运用到生物信息学的科技文献主题探测中,是对文本进行分类整理的一个较好的方法。
本文提出的基于主题模型的科技文献主题探测系统旨在通过发现文本集中的主题以了解其内容及分析研究热点。首先尝试了通过K-means聚类方法来获得主题的分布,虽然该方法易于实现,且对一般的短文本分析效果良好,但在面对相似度较高的科技文献时表现欠佳,因此引进了最新的LDA主题模型进行主题探测。该方法以带参数的概率模型为基础,通过多次迭代反复修正估计的模型参数,最终返回文本-主题分布和主题-关键词分布。使用LDA方法后,分析效率与结果都有了显著提高。本文最后还对Bioinformatics期刊上的论文摘要进行主题探测、热点预测,并给出其结果分析。