收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向舆情分析和属性发现的网络文本挖掘技术研究

黄九鸣  
【摘要】:微博、即时通信工具、论坛、博客等社会化媒体,以及协同标注、网上商城、电子图书馆等基于实体数据库的互联网应用,已深入人们的日常生活,成了人们发表和传播信息、获取知识的重要平台。网络文本是互联网上信息的主要载体,对其深入挖掘在安全领域的网络舆情分析和实体属性发现上有重大的应用价值和学术意义。 文本消息和实体信息是互联网文本数据的两种重要类型。社会化媒体上的文本消息,通常属短文本,并按其时间属性组织后形成文本消息流,包含着网民们的许多思想观念与倾向。然而,文本消息的不完整性、奇异性、海量性和动态性导致文本消息流的话题发现、倾向性分析和热点信息挖掘十分困难。另一方面,基于实体数据库的网站包含着大量网页标签、电子图书、房产、汽车、商品、娱乐和人物等实体的属性信息。实体属性信息散布在各类网页间,往往被海量的网页数据所淹没;特别是应用了垂直搜索技术的网站,大量实体属性信息被用于交互式搜索,这种隐藏在用户检索实体动态交互过程中的属性因没有显式表示在描述实体详情的最终页面上,故本文称其为潜属性信息。目前尚未发现关于潜属性信息挖掘的研究。 本文针对文本消息流和实体信息的特点,面向舆情分析和实体属性发现,开展短文本会话检测、敏感热点短语挖掘、实体潜属性发现和海量属性的聚焦爬取四个方面网络文本数据挖掘技术的研究。主要贡献表现在: 1.提出了一种基于消息产生密集度和上下文相关度的文本会话检测算法。文本会话检测旨在将消息分检到多个不同的会话队列,是短文本话题发现、倾向性分析与社会网络分析的基础。由于消息产生速率的变化情况能反映出文本会话的边界,本文首先采用n阶移动平均法平滑消息产生速率,然后检测出产生速率曲线中的波谷时刻,认为波谷时刻为会话边界。接着,对于切分好的细粒度会话片段,分析其内容相关性以聚合出较完整的会话,解决交错性问题。由于消息流中时间上比较邻近的消息构成对话上下文的可能性较大,为此基于邻近程度引入消息间会话上下文相关度的概念。为更客观地衡量任意两条消息间的上下文相关度,需要将海量历史消息流中相似消息间的上下文相关度进行综合计算。经综合计算得到的最终上下文相关度较高(超过某个阈值)的消息,认为属于同一会话。消息片段间的会话相关度从两个片段的消息间的相关度综合而得。实验表明,和单纯基于消息间文本内容相似度的聚类算法相比,性能提升了30%左右。 2.针对微博中文文本消息流,提出了一种基于AC-Trie树的热点短语挖掘技术。消息流中出现频率突然变高且能持续一段时间的子字符串称为热点短语,它往往能反映消息流中隐含的热点话题和突发事件。本文首先用文本消息流的某个典型时段采样得到各类短语,做为热点短语挖掘的样本,构建具有有限自动机结构的AC-Trie前缀树,然后基于该样本树,通过单遍扫描后续的文本消息流,将各类短语的出现频率记录在相应节点上,并采用频率、放大率或加速度三种经典方法来度量各类短语的出现热度,挖掘出热点短语。考虑到热点话题的转移会导致热点短语的变化,AC-Trie需要相应地从新的文本消息流中采样重构,以发现新的热点短语。本文通过分析记录在Trie树各节点上的遗漏短语频率,动态确定重构时机,以及时发现新的热点短语并减少计算开销。新浪微博文本消息流上的实验表明,本文提出的挖掘技术能有效挖掘到热点短语(平均正确率达89%),时空开销仅为基准算法的2%。 3.提出了基于垂直搜索网站超链接语义的潜属性信息发现技术。垂直搜索网站除包含展示实体详情的实体页面外,还包含垂直搜索过程中出现的大量列表页面。列表页面上含有用于垂直搜索的超链接。本文首先针对特定网站的某些显著特征,判别并找出所有列表页面;然后,按照列表页面上超链接中有关“上卷”、“下钻”等搜索概念的语义,通过列表页面及其每一超链接指向的列表页面所分别隐含的实体集间的大小关系的比较,找出该列表页面的“下钻”链接;最后,把“下钻”链接上的锚文本映射到该链接指向的列表页面所隐含的实体上,归入该实体的属性集。潜属性的发现对于深度挖掘舆情对象和热点话题的某些特征有重要意义。尽管网站的动态更新可能导致潜属性发现出现某些误差,实验表明本文的潜属性方法受网站动态更新的影响不大,实用性较高,能达到98%的平均精确率和97%的平均召回率。 4.提出了一种基于动态查询树剪枝机制的潜属性信息聚焦爬取技术。针对垂直搜索网站不同列表页面可能隐含相同实体集这一情况,为避免潜属性发现过程中的不必要的重复,本文设计了一种查询树的剪枝机制,查询树的每个节点代表一个列表页面,父节点指向子节点的边代表相应列表页面间的下钻关系,边上的值即为相应的潜属性,从根节点到子节点路径上的所有潜属性构成该子节点的潜属性集。查询树是动态构建的。首先从网站的根列表页面出发,以深度优先方式,根据“下钻”超链接语义生成下层子节点;接着,对于新生成的每个子节点,判断其潜属性集跟已有的某个子节点相同,若有则剪除该子节点。以上含有剪枝机制的查询树动态构建过程,本文称之为属性的聚焦爬取。聚焦爬取过程结束时,可以获得无重复的所有实体页面(叶节点)。最后,通过业已成熟的传统网页信息抽取技术获得实体页面上的显式属性,并与潜属性一起构成实体的全部属性信息。实验表明,经优化后的潜属性发现方法,由于显著提高了发现的速度,故可以更好地适应站点的动态变化,精确率和召回率提高到了99%。 5.设计并实现了基于UIMA的文本消息流和实体信息挖掘系统。UIMA是一个基于中间件的海量非结构化数据挖掘分布式开源平台。本文基于UIMA,采用责任链设计模式设计和实现了包含本文四个方面研究内容的互联网文本信息挖掘系统,该系统由网络爬虫构件、预处理子系统、自然语言处理子系统和本文重点研究和实现的挖掘子系统组成。网络爬虫构件实现指定网页的爬取并存储在Hadoop分布式文件系统中。预处理子系统对网页内容依据配置的规则进行初步的无用信息过滤和简单切分,并抽取作者、时间、标题和超链接等元信息,将结果封装为UIMA的CAS数据包。自然语言处理子系统对数据包中的文本内容进行分词、命名实体识别、词性标注等处理,并将结果添加到CAS数据包中。挖掘子系统从CAS包中获得文本消息或超链接,按照本文所提出的方法与机制,将消息流中的消息分检到会话队列,并进行挖掘热点短语的挖掘,对垂直搜索网站的页面进行实体属性信息发现,最后将结果写入数据库中。同时,保存于数据库中的实体属性信息反馈到自然语言处理子系统,辅助实体及属性识别,以不断深化舆情分析工作。此外,本系统还实现了一个简明的可视化界面,展示挖掘结果。本系统已成功应用于国防科大研制的银河博思舆情分析系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王德兴;胡学钢;刘晓平;;一种新颖的基于量化概念格的属性归纳算法[J];西安交通大学学报;2007年02期
2 付艳艳;张敏;冯登国;陈开渠;;基于节点分割的社交网络属性隐私保护[J];软件学报;2014年04期
3 马秀琴;冯百明;秦红武;;属性集重要性的研究[J];计算机应用;2010年07期
4 林蓉;史开泉;;函数P-集合与信息规律的属性控制[J];计算机科学;2012年07期
5 李勇;曾振宇;张晓菲;;支持属性撤销的外包解密方案[J];清华大学学报(自然科学版);2013年12期
6 陈源;曾德胜;谢冲;;基于聚类的属性约简方法[J];计算机系统应用;2009年05期
7 于海燕;乔晓东;;一种完备的最小属性约简方法[J];计算机工程;2012年04期
8 张春英;王立亚;;基于属性集合幂集的区间概念格L_α~β的渐进式生成算法[J];计算机应用研究;2014年03期
9 杨祥茂;黄涛;周启海;;基于效用的结构语法的属性学习[J];计算机科学;2008年09期
10 孟庆全;梅灿华;;一种新的属性集依赖度[J];计算机应用;2007年07期
11 刘明吉;王秀峰;饶一梅;;一个混合特征属性选择算法[J];计算机科学;2000年11期
12 袁文杰;孟吉;;基于Rough Set的属性约简及应用研究[J];现代计算机(专业版);2007年09期
13 张恩胜;;概念格属性约简的一种快速求法[J];辽宁师范大学学报(自然科学版);2009年02期
14 宋帅峰;王世卿;;基于属性集合加密的数据访问控制方案[J];计算机应用与软件;2014年07期
15 张静,王建民,何华灿;基于属性相关性的属性约简新方法[J];计算机工程与应用;2005年28期
16 刘利峰;吴孟达;王丹;;基于属性约简的概念格构造[J];计算机工程与科学;2007年06期
17 杨彬;徐宝文;;分布式概念格的属性约简研究[J];计算机研究与发展;2008年07期
18 孙昱薇;魏玲;仇代远;;基于基概念的面向属性概念格建格方法[J];西北大学学报(自然科学版);2011年01期
19 黄惠燕,叶东毅;Pawlak属性约简定义的缺陷及其分析[J];福州大学学报(自然科学版);2000年03期
20 周如旗;陈文伟;;基于EKLD的属性约简方法[J];计算机工程;2007年11期
中国重要会议论文全文数据库 前2条
1 黄威;靳亚辉;;面向评论挖掘的产品属性集合构建[A];第六届(2011)中国管理学年会——信息管理分会场论文集[C];2011年
2 张秀廷;;“偶有属性”发微[A];逻辑今探——中国逻辑学会第五次代表大会暨学术讨论会论文集[C];1996年
中国博士学位论文全文数据库 前2条
1 杨淑群;基于属性层次结构的FCA及其在认知诊断中的应用研究[D];南京航空航天大学;2009年
2 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 靳亚辉;基于属性集合的产品评论挖掘研究[D];华中科技大学;2011年
2 罗凌云;认知诊断中项目属性自动标识策略的相关研究[D];江西师范大学;2010年
3 李晓霞;概念格的属性约简及建格算法的研究[D];东北大学;2008年
4 张银银;基于SALmap方法的属性抽取的研究与实现[D];东北大学;2010年
5 宋帅峰;基于属性集合加密的数据访问控制研究[D];郑州大学;2013年
6 刘敏茜;面向对象概念格与面向属性概念格的属性约简理论[D];西北大学;2010年
7 张小花;面向属性概念格与面向对象概念格的粒约简理论[D];西北大学;2011年
8 曾振宇;基于属性加密的访问控制机制研究[D];北京交通大学;2014年
9 曾飞;属性基加密的研究及其在文档安全系统中的应用[D];华中科技大学;2011年
10 吉家锋;连续属性的离散化及知识获取的研究[D];西华大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978