科研工作成功原因挖掘及可视化
【摘要】:论文是科学研究成果最直接的表现,论文的被引频次体现着研究工作的影响力。对被引频次高的论文(高引文献)做研究,可以得到研究热点、研究发展方向等指导科学研究工作内容的发展的有效结论。而高引文献也意味着对应的科学研究工作的成功。分析科学研究工作取得成功的原因,对指导科学研究工作的开展有重要意义。本文以高引文献的作者关于他们科学研究工作取得成功的自评为数据基础,开展了以下三方面的工作:(1)科学研究成功原因的挖掘。为高引文献作者的自评建立了自评文档集。获取了学科领域信息,并做了自评正文及相关信息的提取。通过对表达成功原因的主题词的分析,发现对于评价类跨学科领域的文本,有时被关心的主题可能由低频主题词而非高频词体现。现有的主题发现方法大多倾向于获取高频词,因而无法用来抽取具有低频特征的共现主题词。本文根据低频主题词具有均匀出现的特性,提出了一种基于自信息的跨学科领域共现主题发现方法,该方法结合了自信息的理论来对词是否符合共现主题进行评估。通过对低频主题词的抽取分析,可以较好的从文本中提取到表征科学研究成功原因的主题词。本文还对主题词进行了成功原因分类,并提供主题词对各原因类别的贡献度等信息。(2)科学研究成功原因的分析。本文将科研工作成功原因的文本挖掘所得到的成功原因与自评发表的年份、原高引文献发表的年份,自评的学科领域、自评作者的地域信息之间存在的关系做了统计分析,得到了一些有趣的推测。(3)科学研究成功原因的挖掘、分析与可视化平台建设。为了使本文的研究成果可以更好的体现出研究价值,方便人们理解和使用,本文搭建了科学研究成功原因的Web平台。并在平台上通过可视化技术友好地对本文的研究成果做出展示。