收藏本站
《昆明理工大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本的网络舆情话题跟踪的研究

廖秀玲  
【摘要】:随着网络的快速发展,当今社会进入了一个信息爆炸的时代,人们可以自由的使用网络来表达自己对某一事物的看法和态度,网络现已渐渐成为舆情产生和传播的重要发源地。许多不利于人们生活与社会和谐发展的信息充斥着互联网各个角落,对社会公共安全造成极大的威胁,网络舆情的研究对维护社会稳定和促进国家发展有着深远的意义。话题跟踪是话题检测及跟踪的一项子任务,目的是监控新闻报道流,识别出与已知话题相关的后续报道。本文主要对基于文本的网络舆情话题跟踪进行研究。 论文的主要工作是: 1.研究实现话题跟踪所涉及到的相关及关键技术:网络爬虫、文本提取、中文分词、新闻报道的特征项选择、权重计算、话题/报道模型构建及两模型之间相似度的计算; 2.实现了基于话题更新的自适应话题跟踪算法,该算法针对传统话题跟踪算法话题模型中训练报道稀疏性问题和自适应话题跟踪算法中话题漂移问题,采用自适应信息过滤的思想,并将话题模型进行更新,提高了话题模型的适应度; 3.提出两种基于时间信息的自适应话题跟踪算法:基于时间信息的相似度调整的自适应话题跟踪算法和基于时间信息的动态阈值的自适应话题跟踪算法,并给出了算法的流程。这两种算法都利用了基于话题更新的自适应话题跟踪算法的优点,并且依据新闻报道随时间变化呈动态发展的特性,利用时间信息,从相似度和阈值这两个不同的角度来考虑问题,提出算法。实验证明,这两种算法都具有良好的性能; 4.提出了基于文本的网络舆情话题跟踪系统的总体设计方案,并给出了系统各子模块的实现方法; 5.提出了确定特征项选择的最佳个数和最佳初始阈值的实验方法,并通过实验证明选择最佳的特征项个数能够降低特征向量维数,而又可以使系统性能趋于平稳,最佳初始阈值可以使算法性能达到最优。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期
2 吴绍忠;李淑华;;互联网络舆情预警机制研究[J];中国人民公安大学学报(自然科学版);2008年03期
3 李舒晨;刘云;李勇;;网络舆情分析中网页信息预处理方案的实现[J];电脑与电信;2008年10期
4 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
6 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
7 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
8 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
9 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
10 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
中国硕士学位论文全文数据库 前4条
1 虞玲玲;基于文本分类的话题跟踪及其一元语法模型的应用[D];南京理工大学;2005年
2 宋丹;基于语义和链接的话题跟踪方法[D];大连理工大学;2007年
3 李兆福;基于K最短路径的中文分词算法研究与实现[D];哈尔滨工程大学;2009年
4 焦健;基于知网和话题更新的话题跟踪算法研究[D];北京交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
2 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
3 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
4 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
5 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
6 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
7 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
8 赵欣欣;索红光;刘玉树;张利萍;;基于带权语义距离的网页预取方法[J];北京理工大学学报;2006年08期
9 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
10 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 耿骞;刘颖;;网络舆情的形成、传播及监测方法[A];科学发展:文化软实力与民族复兴——纪念中华人民共和国成立60周年论文集(下卷)[C];2009年
5 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
7 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
8 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
10 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
7 张玉强;网络舆情危机的政府适度反应研究[D];中央民族大学;2011年
8 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
9 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
10 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
2 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
3 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
4 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
5 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
8 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
9 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
10 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 宋柔;计算机辅助汉语校对系统[J];当代语言学;2001年01期
5 吴绍忠;;WEB信息挖掘与公安情报收集[J];中国人民公安大学学报(自然科学版);2006年04期
6 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
7 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
8 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
9 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
10 朱华桂;曾向东;;监测预警体系建设与突发事件应急管理——以江苏为例[J];江苏社会科学;2007年03期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前1条
1 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 宋丹;林鸿飞;杨志豪;;基于内容计算和链接分析的Web话题跟踪方法[J];情报学报;2007年04期
2 刘海娟;张佳骥;陈勇;;语言模型在话题跟踪中的应用[J];无线电工程;2008年09期
3 陈学昌;韩佳珍;魏桂英;;话题识别与跟踪技术发展研究[J];中国管理信息化;2011年09期
4 刘海娟;张佳骥;陈勇;;基于改进权重计算的话题跟踪[J];无线电工程;2008年04期
5 赵华;赵铁军;于浩;郑德权;;基于查询向量的英语话题跟踪研究[J];计算机研究与发展;2007年08期
6 丁杰;徐俊刚;;IPSMS:一个网络舆情监控系统的设计与实现[J];计算机应用与软件;2010年04期
7 赵艳;戴播;濮小佳;袁春风;;基于话题要素相似度计算的报道关系识别方法[J];计算机应用与软件;2010年01期
8 杨志超;王益民;;机械加工零件模糊聚类分析[J];昆明理工大学学报(理工版);1991年03期
9 孙兰春;姚海顺;冯家璋;;对比察觉双眼总合的空间频率效应[J];光学精密工程;1991年06期
10 徐青松,汪涛,邢小良,陈小平;快速分类神经网络在字符识别中的应用[J];数据采集与处理;1993年02期
中国重要会议论文全文数据库 前10条
1 宋丹;吴晨;薛德军;师庆辉;;基于KNN的科技主题跟踪[A];第五届全国信息检索学术会议论文集[C];2009年
2 林鸿飞;宋丹;杨志豪;;基于语义框架的话题跟踪方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 孔平;严广乐;;基于分形维数的二值化算法在车牌识别中的应用[A];第十一届全国非线性振动学术会议暨第八届全国非线性动力学和运动稳定性学术会议论文集[C];2007年
5 李华;程伟;;一种改进的小波模极大值检测与消噪算法[A];2009中国控制与决策会议论文集(3)[C];2009年
6 宋宇;张元平;周海军;;基于小波变换的图像去噪中两个关键问题研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 郑康;;时变OFDM系统中参数化时域信道估计的改进[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
8 高建军;陈小宏;;凸集投影重建方法中的阈值集合模型设计研究[A];中国地球物理2010——中国地球物理学会第二十六届年会、中国地震学会第十三次学术大会论文集[C];2010年
9 宋东平;;随机需求不可靠制造系统的生产控制[A];1994中国控制与决策学术年会论文集[C];1994年
10 张常年;;基于小波变换阈值的信号去噪[A];2001中国控制与决策学术年会论文集[C];2001年
中国重要报纸全文数据库 前10条
1 赵 粮、吴丽辉;设定阈值打补丁[N];中国计算机报;2004年
2 小正;仅凭T值阈值不足以评估骨折危险[N];保健时报;2005年
3 黄帝荣;为什么“第一”的事情反被忽视[N];人民日报;2009年
4 周秋根;几种血压概念在临床的应用[N];中国中医药报;2004年
5 中国经济体制改革研究会首席法律顾问、中央国家机关政府采购中心顾问、北京市辽海律师事务所高级律师 谷辽海;GPA瞅准“大蛋糕”(下)[N];中国财经报;2007年
6 孙业要;唾液能查酒后驾车[N];中国质量报;2007年
7 姜靖;信息爆炸引发阅读模式变革[N];科技日报;2009年
8 ;直肠内温度变化影响肠易激综合征患者内脏感觉阈值[N];中国医药报;2003年
9 峰文;为什么我们会得遗传病[N];中国民族报;2002年
10 中国农业大学 张建云 教授;巧用含有抗营养因子的饲料原料[N];中国畜牧兽医报;2005年
中国博士学位论文全文数据库 前10条
1 唐小锋;阈值光电子—光离子符合速度成像及其应用研究[D];中国科学技术大学;2011年
2 李财莲;图像多尺度几何分析及去噪算法研究[D];国防科学技术大学;2011年
3 刘军;随机共振与感觉信息处理的理论和实验研究[D];浙江大学;2004年
4 刘军;基于阈值控制策略的若干生产问题的研究[D];浙江大学;2005年
5 王莉萍;多维复合极值分布理论及其工程应用[D];中国海洋大学;2005年
6 杨洁;模糊神经网络的学习收敛性与阈值可去性[D];大连理工大学;2006年
7 任江波;电力系统过程状态估计研究[D];哈尔滨工业大学;2007年
8 王翠香;模糊数学在个旧东区锡矿资源预测中的应用[D];中国地质大学(北京);2009年
9 杨龙;密云水库富营养化阈值与外源磷素输入响应关系研究[D];首都师范大学;2009年
10 侯波;基于小波变换消除遥感图像噪声[D];中国科学院研究生院(遥感应用研究所);2002年
中国硕士学位论文全文数据库 前10条
1 廖秀玲;基于文本的网络舆情话题跟踪的研究[D];昆明理工大学;2012年
2 刘佳;面向微博的热点话题发现及跟踪[D];华南理工大学;2012年
3 宋阳;食品安全话题发现与跟踪研究[D];北京邮电大学;2012年
4 宋丹;基于语义和链接的话题跟踪方法[D];大连理工大学;2007年
5 虞玲玲;基于文本分类的话题跟踪及其一元语法模型的应用[D];南京理工大学;2005年
6 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
7 丁伟莉;中文Blog热门话题检测与跟踪技术研究[D];哈尔滨工业大学;2007年
8 焦健;基于知网和话题更新的话题跟踪算法研究[D];北京交通大学;2009年
9 张美珍;话题检测与跟踪算法的研究[D];北京交通大学;2010年
10 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026