收藏本站
《华南理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于话题检测和情感分析的互联网热点分析与监控技术研究

吴泽衡  
【摘要】:随着互联网的迅猛发展,网络上的信息量也急剧地增长,网络新闻成为人们获取信息的主要方式之一。面对浩瀚的网络新闻,人们需要有一种方式能够准确、快速地从海量数据获取有用的信息,尤其是近期一段时间发生的热点事件、敏感信息等。如何挖掘、分析和监控热点信息,已经成为当前研究者的一个研究热点。 本文通过话题检测和情感分析技术,来进行互联网新闻报道的热点分析。使用话题检测技术,自动形成一系列话题,对这些话题进行热度分析形成热点话题,以各种方式将这些热门话题呈现给用户。同时,将情感分析技术结合进来,分析报道及话题所对应的评论的极性倾向和强度,从而得出广大网民对某个话题的看法,便于决策者做出决策。将两者结合起来,不仅可以有效地检测热点话题,还可以识别出人们对该话题的看法和评价。本文的研究内容主要有以下几个方面: (1)提出一种基于多向量相似度计算和二次聚类的话题检测算法,该算法能够利用人物信息和地点信息来进行报道之间的区分,同时能够利用报道的时间聚集特性,将同一天的报道首先进行局部聚类,再与旧话题进行归并聚类。实验表明,该算法具有较好的效果。 (2)提出一个计算话题能量值的算法,该算法主要用于评价话题的热度以及淘汰过期话题。同时,针对话题的特性,提出一种称为TF-IToF(Term Frequency-Inverse Topic Frequency)的话题关键词抽取算法,该方法用于抽取最能代表话题的关键词组。实验表明该算法的抽取效果较好。 (3)提出一种基于HowNet和PMI相融合的词语极性计算方法,该方法知网同义词扩展、知网相似度计算和PMI共现概率计算等技术,能够解决某些词汇在语料库中出现频率低的问题。实验表明,该方法具有较好的效果。 基于以上研究成果,本文设计并实现了互联网新闻热点监控系统,该系统能够有效地为用户提供最新、最热的互联网新闻热点话题以及对这些话题的分析结果,从而实现对互联网热点舆情的分析和监控。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 王振宇;吴泽衡;胡方涛;;基于HowNet和PMI的词语情感极性计算[J];计算机工程;2012年15期
2 何建民;贺涛;;基于QFD的网络社区话题影响力测评方法[J];情报科学;2013年07期
中国硕士学位论文全文数据库 前4条
1 麦艺华;面向中文微博的社会网络分析及应用[D];华南理工大学;2012年
2 刘佳;面向微博的热点话题发现及跟踪[D];华南理工大学;2012年
3 衣波;网络舆情信息的话题发现和追踪技术的研究与应用[D];广东工业大学;2013年
4 孙莹;基于Web文本挖掘的企业口碑情感分类模型研究[D];华中师范大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
3 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
4 蒋凯;武港山;;基于Web的信息检索技术综述[J];计算机工程;2005年24期
5 闵可锐;赵迎宾;刘昕;赵泽宇;闫华;;互联网话题识别与跟踪系统设计及实现[J];计算机工程;2008年19期
6 许芳芳;王新伟;;Web文本聚类算法的分析比较[J];计算机时代;2010年10期
7 张秋余;竭洋;李凯;;基于模糊支持向量机与决策树的文本分类器[J];计算机应用;2008年12期
8 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
9 王根;赵军;;基于多重冗余标记CRFs的句子情感分析研究[J];中文信息学报;2007年05期
10 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
中国硕士学位论文全文数据库 前4条
1 刘星星;热点事件发现及事件内容特征自动抽取研究[D];华中师范大学;2009年
2 朱力;中文词语情感倾向研究[D];哈尔滨工业大学;2009年
3 张美珍;话题检测与跟踪算法的研究[D];北京交通大学;2010年
4 张霄凯;汉语主客观文本分类及预处理研究[D];上海交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
3 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
4 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
5 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
6 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
7 许志凯;徐志明;李栋;李生;;面向互联网新闻的话题检测与追踪[J];智能计算机与应用;2011年03期
8 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
9 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
10 李洁;;基于Web的信息检索技术分析与研究[J];电脑知识与技术;2010年26期
中国重要会议论文全文数据库 前10条
1 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 邱立坤;陶然;龙志祎;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
4 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 宋丹;林鸿飞;杨志豪;;一种利用链接分析的Web话题跟踪方法[A];第三届学生计算语言学研讨会论文集[C];2006年
7 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 刘星星;何婷婷;龚海军;陈龙;;网络热点事件发现系统的设计[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
4 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
5 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
6 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
7 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
8 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
9 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
10 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
4 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
5 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
6 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
7 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
8 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
9 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
10 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
3 赖胜强;朱敏;;网络口碑研究述评[J];财贸经济;2009年06期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 崔春;龚捷;;Web信息抽取研究综述[J];电脑知识与技术;2011年10期
6 刘志明;刘鲁;;微博网络舆情中的意见领袖识别及分析[J];系统工程;2011年06期
7 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期
8 王惠仙;龙华;;基于改进的正向最大匹配中文分词算法研究[J];贵州大学学报(自然科学版);2011年05期
9 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
10 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
中国重要会议论文全文数据库 前1条
1 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前10条
1 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
2 史德增;聚类算法在Web文本挖掘中的应用研究[D];太原理工大学;2011年
3 康书龙;基于用户行为及关系的社交网络节点影响力评价[D];北京邮电大学;2011年
4 张岚岚;新浪微博的网络舆情分析研究[D];华东师范大学;2011年
5 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
6 周城;面向中文Web评论的情感分析技术研究[D];国防科学技术大学;2011年
7 何淑芳;基于BBS文本信息的中文自动分词系统的研究[D];中国海洋大学;2006年
8 王星辉;搜索引擎设计分析与查询改进[D];电子科技大学;2007年
9 吴勇;高校学生涉入程度对口碑传播的作用[D];华中农业大学;2007年
10 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 陈国兰;;基于中文微博的突发事件舆情监测研究[J];电脑知识与技术;2014年05期
中国博士学位论文全文数据库 前1条
1 刘楠;面向微博短文本的情感分析研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前5条
1 刘佳;面向微博的热点话题发现及跟踪[D];华南理工大学;2012年
2 高雅;微博新闻事件信息可信度评价[D];吉林大学;2013年
3 郭冲;面向在线评论的细粒度意见挖掘及在手机口碑分析中的应用[D];华南理工大学;2013年
4 杜振雷;面向微博短文本的情感分析研究[D];北京信息科技大学;2013年
5 沈幸峰;基于网络评论的话题挖掘[D];杭州电子科技大学;2014年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘洋;张秋余;;基于Huffman树的模糊多类支持向量机[J];辽宁工程技术大学学报(自然科学版);2008年01期
2 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期
3 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
4 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
5 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
6 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
7 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
8 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
9 张刚;周昭涛;王斌;;基于主题的分布式信息检索技术研究[J];计算机工程;2006年12期
10 柴玉梅;熊德兰;昝红英;;Web文本褒贬倾向性分类研究[J];计算机工程;2006年17期
中国重要会议论文全文数据库 前1条
1 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前1条
1 杨丽英;基于主题要素的突发事件后续报道追踪方法研究[D];山西大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 史豪杰;邢清华;刘付显;;基于引入概率的范例匹配新方法[J];计算机工程与应用;2009年10期
2 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
3 赵俊杰;胡学钢;;基于文本分类的文档相似度计算[J];微型电脑应用;2008年12期
4 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期
5 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期
6 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期
7 缪勇;宋斌;;基于Web日志的典型匿名用户路径挖掘研究[J];计算机应用;2009年10期
8 张爱琦;左万利;王英;梁浩;;基于多个领域本体的文本层次被定义聚类方法[J];计算机科学;2010年03期
9 江耿豪;;基于VisualProlog的自动答疑系统设计与实现[J];现代教育技术;2010年07期
10 苏慧群;;XML文档数对序列模型与结构相似度算法研究[J];湖南广播电视大学学报;2010年03期
中国重要会议论文全文数据库 前10条
1 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
2 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
10 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
2 记者 洪奕宜;网站特设专区 委员“开博议政”[N];南方日报;2007年
3 俞志新 李水根;创新——中药跨出国门的基础[N];健康报;2006年
4 田振坤 王连芝;黑龙江中医药大学建立蔓荆子药材指纹图谱[N];中国医药报;2005年
5 深圳商报记者 陈晓薇;提案从提交到办理电子监控实时跟踪[N];深圳商报;2007年
6 何建昆;复方丹参滴丸指纹图谱分析及质量控制技术通过鉴定[N];科技日报;2004年
7 曹凤兰 孟杰;创建先进的中药质量检测方法[N];科技日报;2004年
8 记者 白京丽;指纹图谱研究走出象牙塔[N];中国医药报;2002年
9 崔昕;浙大中药质控技术取得创新性成果[N];中国医药报;2002年
10 吴铭;天士力推出多元指纹图谱检测法[N];中国医药报;2004年
中国博士学位论文全文数据库 前10条
1 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
4 史先敏;中国栽培灵芝三萜成分的高效液相指纹图谱研究[D];南京农业大学;2008年
5 李进;两性霉素B有关物质的质量研究与多元组分药物的质量控制和分析[D];中国协和医科大学;2007年
6 王吉华;基于特征函数的产品造型进化设计研究[D];山东师范大学;2009年
7 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
8 卢湖川;人脸识别中几个关键算法研究[D];大连理工大学;2008年
9 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
10 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 王德刚;智能答疑系统的设计[D];内蒙古大学;2008年
2 张宇;关系数据库中基于元组的关键词查询研究[D];燕山大学;2009年
3 张平生;计算机辅助飞机协调图表设计技术研究[D];西北工业大学;2007年
4 郭竞;三维地形模型检索系统设计与实现[D];西北大学;2007年
5 王婷;OWL本体之间概念相似度计算研究[D];河海大学;2007年
6 蔡元哲;本体实例学习关键技术的研究[D];中国人民大学;2008年
7 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
8 王少鹏;基于网页标识的图像内容过滤防火墙的设计[D];山西大学;2008年
9 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
10 赵火军;基于引文链的知识元挖掘方法研究[D];西安电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026