收藏本站
《国防科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向舆情分析和属性发现的网络文本挖掘技术研究

黄九鸣  
【摘要】:微博、即时通信工具、论坛、博客等社会化媒体,以及协同标注、网上商城、电子图书馆等基于实体数据库的互联网应用,已深入人们的日常生活,成了人们发表和传播信息、获取知识的重要平台。网络文本是互联网上信息的主要载体,对其深入挖掘在安全领域的网络舆情分析和实体属性发现上有重大的应用价值和学术意义。 文本消息和实体信息是互联网文本数据的两种重要类型。社会化媒体上的文本消息,通常属短文本,并按其时间属性组织后形成文本消息流,包含着网民们的许多思想观念与倾向。然而,文本消息的不完整性、奇异性、海量性和动态性导致文本消息流的话题发现、倾向性分析和热点信息挖掘十分困难。另一方面,基于实体数据库的网站包含着大量网页标签、电子图书、房产、汽车、商品、娱乐和人物等实体的属性信息。实体属性信息散布在各类网页间,往往被海量的网页数据所淹没;特别是应用了垂直搜索技术的网站,大量实体属性信息被用于交互式搜索,这种隐藏在用户检索实体动态交互过程中的属性因没有显式表示在描述实体详情的最终页面上,故本文称其为潜属性信息。目前尚未发现关于潜属性信息挖掘的研究。 本文针对文本消息流和实体信息的特点,面向舆情分析和实体属性发现,开展短文本会话检测、敏感热点短语挖掘、实体潜属性发现和海量属性的聚焦爬取四个方面网络文本数据挖掘技术的研究。主要贡献表现在: 1.提出了一种基于消息产生密集度和上下文相关度的文本会话检测算法。文本会话检测旨在将消息分检到多个不同的会话队列,是短文本话题发现、倾向性分析与社会网络分析的基础。由于消息产生速率的变化情况能反映出文本会话的边界,本文首先采用n阶移动平均法平滑消息产生速率,然后检测出产生速率曲线中的波谷时刻,认为波谷时刻为会话边界。接着,对于切分好的细粒度会话片段,分析其内容相关性以聚合出较完整的会话,解决交错性问题。由于消息流中时间上比较邻近的消息构成对话上下文的可能性较大,为此基于邻近程度引入消息间会话上下文相关度的概念。为更客观地衡量任意两条消息间的上下文相关度,需要将海量历史消息流中相似消息间的上下文相关度进行综合计算。经综合计算得到的最终上下文相关度较高(超过某个阈值)的消息,认为属于同一会话。消息片段间的会话相关度从两个片段的消息间的相关度综合而得。实验表明,和单纯基于消息间文本内容相似度的聚类算法相比,性能提升了30%左右。 2.针对微博中文文本消息流,提出了一种基于AC-Trie树的热点短语挖掘技术。消息流中出现频率突然变高且能持续一段时间的子字符串称为热点短语,它往往能反映消息流中隐含的热点话题和突发事件。本文首先用文本消息流的某个典型时段采样得到各类短语,做为热点短语挖掘的样本,构建具有有限自动机结构的AC-Trie前缀树,然后基于该样本树,通过单遍扫描后续的文本消息流,将各类短语的出现频率记录在相应节点上,并采用频率、放大率或加速度三种经典方法来度量各类短语的出现热度,挖掘出热点短语。考虑到热点话题的转移会导致热点短语的变化,AC-Trie需要相应地从新的文本消息流中采样重构,以发现新的热点短语。本文通过分析记录在Trie树各节点上的遗漏短语频率,动态确定重构时机,以及时发现新的热点短语并减少计算开销。新浪微博文本消息流上的实验表明,本文提出的挖掘技术能有效挖掘到热点短语(平均正确率达89%),时空开销仅为基准算法的2%。 3.提出了基于垂直搜索网站超链接语义的潜属性信息发现技术。垂直搜索网站除包含展示实体详情的实体页面外,还包含垂直搜索过程中出现的大量列表页面。列表页面上含有用于垂直搜索的超链接。本文首先针对特定网站的某些显著特征,判别并找出所有列表页面;然后,按照列表页面上超链接中有关“上卷”、“下钻”等搜索概念的语义,通过列表页面及其每一超链接指向的列表页面所分别隐含的实体集间的大小关系的比较,找出该列表页面的“下钻”链接;最后,把“下钻”链接上的锚文本映射到该链接指向的列表页面所隐含的实体上,归入该实体的属性集。潜属性的发现对于深度挖掘舆情对象和热点话题的某些特征有重要意义。尽管网站的动态更新可能导致潜属性发现出现某些误差,实验表明本文的潜属性方法受网站动态更新的影响不大,实用性较高,能达到98%的平均精确率和97%的平均召回率。 4.提出了一种基于动态查询树剪枝机制的潜属性信息聚焦爬取技术。针对垂直搜索网站不同列表页面可能隐含相同实体集这一情况,为避免潜属性发现过程中的不必要的重复,本文设计了一种查询树的剪枝机制,查询树的每个节点代表一个列表页面,父节点指向子节点的边代表相应列表页面间的下钻关系,边上的值即为相应的潜属性,从根节点到子节点路径上的所有潜属性构成该子节点的潜属性集。查询树是动态构建的。首先从网站的根列表页面出发,以深度优先方式,根据“下钻”超链接语义生成下层子节点;接着,对于新生成的每个子节点,判断其潜属性集跟已有的某个子节点相同,若有则剪除该子节点。以上含有剪枝机制的查询树动态构建过程,本文称之为属性的聚焦爬取。聚焦爬取过程结束时,可以获得无重复的所有实体页面(叶节点)。最后,通过业已成熟的传统网页信息抽取技术获得实体页面上的显式属性,并与潜属性一起构成实体的全部属性信息。实验表明,经优化后的潜属性发现方法,由于显著提高了发现的速度,故可以更好地适应站点的动态变化,精确率和召回率提高到了99%。 5.设计并实现了基于UIMA的文本消息流和实体信息挖掘系统。UIMA是一个基于中间件的海量非结构化数据挖掘分布式开源平台。本文基于UIMA,采用责任链设计模式设计和实现了包含本文四个方面研究内容的互联网文本信息挖掘系统,该系统由网络爬虫构件、预处理子系统、自然语言处理子系统和本文重点研究和实现的挖掘子系统组成。网络爬虫构件实现指定网页的爬取并存储在Hadoop分布式文件系统中。预处理子系统对网页内容依据配置的规则进行初步的无用信息过滤和简单切分,并抽取作者、时间、标题和超链接等元信息,将结果封装为UIMA的CAS数据包。自然语言处理子系统对数据包中的文本内容进行分词、命名实体识别、词性标注等处理,并将结果添加到CAS数据包中。挖掘子系统从CAS包中获得文本消息或超链接,按照本文所提出的方法与机制,将消息流中的消息分检到会话队列,并进行挖掘热点短语的挖掘,对垂直搜索网站的页面进行实体属性信息发现,最后将结果写入数据库中。同时,保存于数据库中的实体属性信息反馈到自然语言处理子系统,辅助实体及属性识别,以不断深化舆情分析工作。此外,本系统还实现了一个简明的可视化界面,展示挖掘结果。本系统已成功应用于国防科大研制的银河博思舆情分析系统。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前1条
1 宁向延;张顺颐;;网络安全现状与技术发展[J];南京邮电大学学报(自然科学版);2012年05期
中国博士学位论文全文数据库 前1条
1 杨玉珍;基于Web评论信息的倾向性分析关键技术研究[D];山东师范大学;2014年
中国硕士学位论文全文数据库 前3条
1 李炤;基于微博情感分析的网络舆情热点发现模型研究[D];兰州大学;2013年
2 佘伟成;基于微博的热点发现与情感倾向分析[D];云南大学;2013年
3 刘婧姣;基于语义的短文本分类算法研究[D];郑州轻工业学院;2013年
【参考文献】
中国期刊全文数据库 前10条
1 王永恒;贾焰;杨树强;;大规模文本数据库中的短文分类方法[J];计算机工程与应用;2006年22期
2 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期
3 朱明,王军,王俊普;基于多层模式的多记录网页信息抽取方法[J];计算机工程;2001年09期
4 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
5 杨文柱,李智玲,徐林昊,李天柱;基于信息抽取的Web查询系统的设计与实现[J];计算机应用;2003年02期
6 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
7 曹倩,丁艳,王超,潘金贵;汉语自动分词研究及其在信息检索中的应用[J];计算机应用研究;2004年05期
8 夏云庆;黄锦辉;张普;;中文网络聊天语言的奇异性与动态性研究[J];中文信息学报;2007年03期
9 曾依灵;许洪波;;网络热点信息发现研究[J];通信学报;2007年12期
10 王放,顾宁,吴国文;基于本体的WEB表格信息抽取[J];小型微型计算机系统;2003年12期
【共引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
4 胡思康;曹元大;;Web网页知识获取技术[J];北京理工大学学报;2006年12期
5 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
6 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
7 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
8 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
9 马瑞民;钱浩;;基于时间频率加权DOM的Web信息抽取方法[J];长江大学学报(自然科学版);2011年01期
10 张磊;陈俊亮;孟祥武;沈筱彦;郭杰;;基于用户偏好的垂直搜索算法[J];电子科技大学学报;2010年01期
中国重要会议论文全文数据库 前10条
1 景东升;;基于本体和agent的地理空间信息语义共享初探[A];中国地理信息系统协会第八届年会论文集[C];2004年
2 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
3 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
4 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
5 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
6 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
7 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
8 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
9 吕国英;冯艳;李茹;;基于中文框架语义的信息抽取研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
5 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
6 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
10 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
5 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
6 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
7 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
8 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
9 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
10 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 郝文江;马晓明;;美国信息安全发展对中国发展战略的启示[J];信息安全与技术;2011年01期
2 覃张华;王景中;;基于HNC理论的短文本语境框架提取实现[J];北京工商大学学报(自然科学版);2007年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 程群;胡延清;;《德国网络安全战略》解析[J];德国研究;2011年03期
5 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期
6 闫瑞;曹先彬;李凯;;面向短文本的动态组合分类算法[J];电子学报;2009年05期
7 蔡淑琴;张静;王旸;马玉涛;林勇;;基于中心化的微博热点发现方法[J];管理学报;2012年06期
8 吴绍忠;李淑华;;互联网络舆情预警机制研究[J];中国人民公安大学学报(自然科学版);2008年03期
9 李大光;;世界各国网络安全建设掠影[J];秘书工作;2011年05期
10 吴志峰,田学东;人名、机构名在基于概念的文本分类中的应用研究[J];河北大学学报(自然科学版);2004年06期
中国重要会议论文全文数据库 前1条
1 许小颖;陶建华;;汉语情感系统中情感划分的研究[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
中国博士学位论文全文数据库 前2条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前8条
1 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
2 康书龙;基于用户行为及关系的社交网络节点影响力评价[D];北京邮电大学;2011年
3 张岚岚;新浪微博的网络舆情分析研究[D];华东师范大学;2011年
4 曾奉尧;基于社会网络的网络舆情挖掘技术与研究[D];电子科技大学;2011年
5 王岩;基于共现链的微博情感分析技术的研究与实现[D];国防科学技术大学;2011年
6 杜炎斌;论互联网时代的平民化心理现象[D];四川大学;2006年
7 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
8 宋蓓;基于数据挖掘的互联网络舆情分析研究[D];首都师范大学;2012年
【二级引证文献】
中国期刊全文数据库 前2条
1 陈荣;卓辉;李旺;;基于防火墙技术的农业信息网络安全分析[J];安徽农业科学;2013年23期
2 刘淑辉;沈陆明;;优化高校计算机实验室开放策略的探讨[J];高校实验室工作研究;2014年01期
【二级参考文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 邱广君,张俐,王宝库,朱靖波,邱波;汉语信息处理中的语义关系类型分析[J];东北大学学报;1998年01期
3 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
4 马静;语言学视野中的网络语言[J];西北工业大学学报(社会科学版);2002年01期
5 梁书杰;;对网络语言规范的探讨[J];高教论坛;2005年06期
6 冯念,冯广艺;网络词语的谐音及规范问题[J];海南师范学院学报(社会科学版);2005年01期
7 李雪华;网络语言初探[J];广西社会科学;2004年03期
8 陈向红;黎昌抱;;网络聊天中表情达意的非规范手段研究[J];广西社会科学;2006年03期
9 李润生;网络词汇的造词法探析[J];江西教育学院学报(社会科学);2003年02期
10 周卫红;;论网络语言的后现代文化内涵[J];晋阳学刊;2006年05期
中国硕士学位论文全文数据库 前1条
1 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 何淑贤;刘桂枝;李树文;;形式概念分析及其应用进展[J];太原科技;2007年05期
2 杜昌平;周德云;;一种基于变精度粗糙集的规则提取方法研究[J];西北工业大学学报;2006年03期
3 张岩;;针对不完备系统的粗糙熵属性约简算法的改进[J];莆田学院学报;2006年05期
4 李彩丽;缪园;;混合关系中的函数依赖及其相关规则[J];计算机工程与应用;2008年35期
5 黄孝斌;佘元冠;;一种基于包含度的绩效评价决策方法[J];统计与决策;2007年08期
6 胡明涵;张俐;任飞亮;;模糊形式概念分析与模糊概念格[J];东北大学学报(自然科学版);2007年09期
7 陈堂敏;;面向用户的知识量最佳属性约简算法在数控机床故障预测中的应用[J];机械科学与技术;2006年02期
8 胡兆玮;于佳;;基于角色访问控制的ERBAC模型研究[J];吉林师范大学学报(自然科学版);2010年04期
9 袁满;曹妍;高俊涛;;“三角形”模型及信息建模关键问题研究[J];齐齐哈尔大学学报(自然科学版);2011年02期
10 于秀清;;F-外嵌入信息与■-遗传辨识-应用[J];计算机科学;2011年05期
中国重要会议论文全文数据库 前10条
1 黄威;靳亚辉;;面向评论挖掘的产品属性集合构建[A];第六届(2011)中国管理学年会——信息管理分会场论文集[C];2011年
2 王淑礼;杨峰;邹先霞;;基于属性的RST在数据挖掘中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 王广涛;宋擒豹;车蕊;;一种新的基于信息熵的属性选择算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 熊腾科;张德富;董槐林;姜青山;邹滢滢;;信息系统中基于粗集的属性关联挖掘[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 杨永滔;王意洁;;基于约束分析的Skyline属性相对重要性发现算法[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
6 李菊;王军;王兴;;基于改进的二进制辨识矩阵的属性约简算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 吴丹;鲍玉斌;刘运涛;于戈;孙焕良;王大玲;;一种基于高效分形维计算的快速属性相关性搜索算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 刘振雷;毛宇光;;多级安全数据库推理审计方法[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 周钢;;操作系统访问控制机制的安全性分析和测试[A];第14届全国计算机安全学术交流会论文集[C];1999年
10 谷俊杰;孙群丽;;基于组织进化的关联规则挖掘在锅炉优化运行中的运用[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
中国重要报纸全文数据库 前4条
1 四川 王子剑;Delphi中实现ADO的高级功能[N];电脑报;2006年
2 普元软件 吉锋;SCA实现“中国化”SOA[N];通信产业报;2006年
3 中国人民大学信息学院 白芸;为你量身定制[N];计算机世界;2001年
4 Dream Zeus;网站制作轻松学(二)[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 王永涛;基于属性密码体制的相关研究[D];上海交通大学;2011年
2 范成贤;动态信息与动态信息规律特征研究[D];山东大学;2013年
3 朱红;粒度聚类方法研究[D];中国矿业大学;2013年
4 贾海涛;基于感知引导的数据融合算法研究[D];电子科技大学;2012年
5 张国军;基于粗糙集的相对属性约简算法及决策方法研究[D];华中科技大学;2010年
6 裴海峰;Z. PAWLAK粗集推广与应用研究[D];山东大学;2007年
7 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
8 袁庆霓;基于网络化制造环境的制造资源共享服务语义关键技术研究[D];西南交通大学;2010年
9 马君华;粗糙集属性约简和聚类算法及其在电力自动化中的应用研究[D];华中科技大学;2010年
10 王荣斌;基于策略集自动组合的网格访问控制模型研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘敏茜;面向对象概念格与面向属性概念格的属性约简理论[D];西北大学;2010年
2 张小花;面向属性概念格与面向对象概念格的粒约简理论[D];西北大学;2011年
3 靳亚辉;基于属性集合的产品评论挖掘研究[D];华中科技大学;2011年
4 赵小香;属性探索算法研究[D];广西师范大学;2010年
5 覃萍;属性探索算法改进及本体构建研究[D];广西师范大学;2010年
6 孙丽丽;基于属性组合的随机森林[D];河北大学;2011年
7 王锦晓;属性基加密中撤销机制的研究[D];杭州电子科技大学;2013年
8 胡馨云;基于属性的商品评论情感挖掘研究[D];华中科技大学;2013年
9 张瑞;基于双聚类的属性分组方法及其应用[D];大连理工大学;2011年
10 黄加顺;基于属性的前向安全数字签名研究[D];上海交通大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026