基于丰富语言特征的中文社交媒体事件发掘
【摘要】:事件发掘就是从海量的、实时的、嘈杂的文本中发掘出有意义的事件,并将其中的事件要素概括抽取出来。事件发掘与其他自然语言处理领域的研究,如信息挖掘、主题检测、事件抽取等有着相似之处。与此同时社交媒体技术的快速发展给事件发掘带来了很好的信息来源。寻找一个有效的事件发掘方法也倍受人们的关注。本文给出了一套完整的事件发掘系统,实现从抓取微博,去除噪音,句子分割(分词,词性标注,命名实体识别,依存句法关系),人工标注,机器学习,事件发掘的完整流程。本文选取目前最流行的中文社交媒体——新浪微博作为文本来源。作为国内主流的社交媒体平台,在新浪微博上每天有数以亿计的微博发布。使用基于概率的条件随机场CRF模型,哈工大的语言云平台作为分词工具,PostgreSQL作为语料存储数据库,Django架构的网站作为人工标注以及事件发掘展示所用,python作为主要开发语言。通过实验,对各语言特征在事件发掘结果上的影响进行归纳分析,选取最优的模型进行事件发掘。结果表明,这套系统能够有效的发掘相关主题的事件,并且能够通过参数进行事件筛选,提高事件要素抽取的准确率。此外,只需为相关主题建立模型,对新抓取的微博进行模型预测,如果非相关主题,则不会发掘出任何事件元素,无需主题分类。