基于主题词同现图的网页相关度研究
【摘要】:
文本的主题词信息抽取是指对从文本中抽取的表达文章主题的词进行量化,以结构化的形式描述文本信息。这些主题词作为文本的中间表示,在信息挖掘和智能检索中用以评估未知文本之间的相似性。网络文本的信息的多元化和复杂化使得要获得一个标准形式的文本特征描述是比较困难的。词的同现频率计算就是计算一个词与另一个词在同一句子中同时出现的次数,从而通过文档中各关键词的相关性,揭示了同一文档中各段之间或者不同文档之间的相关性。
现今的研究中,各种方法多用向量的形式来表示一篇文章中的各主题词及其特征值,称为特征向量,并在此基础上,对相关性进行计算。本文提出了用同现图的方式表示文章的新研究方法,通过图的形式体现出主题词之间的关联,从而反映文本之间的联系。在此方法过程中主要有两个步骤:首先是将文本以无向图的形式表示,然后是生成的图形的相似性的分析。
本文实现了一个能满足运用同现图方法将文本进行聚类处理的系统。系统自动抽取文本内容,并用中文分词的方法提取文章中的主题词,再生成主题词之间同现关系形成的图。系统同时实现了一个主题词同现图在文本聚类方面的应用,最后使用查全率和准确率以及F值来评估算法的好坏,通过实验证明了该聚类算法的有效性和优越性。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092