收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向特定领域的互联网舆情分析技术研究

张长利  
【摘要】:随着互联网技术的飞速发展,网络上的信息呈指数级增长,同时web2.0的交互性技术使人们能够在互联网上进行交流和发表各种意见评论信息,因此互联网上存在各种各样的舆情信息,在信息海洋中,信息处于淹没状态,给人们查找所需信息带来极大困难,如何获取网络上关于特定领域主题事件的舆情信息?聚焦爬虫技术与情感分析技术相结合使我们对特定领域的舆情分析成为可能。通过分析特定领域的网络舆情可以为相关决策部门提供辅助决策支持,有助于企业改进方案计划,为用户提供有用的帮助与导向信息。本文针对其中的一些关键技术和理论方法作了如下三个方面的工作: (1)提出了基于综合价值具有增量特性的主题爬虫。在主题相关信息采集方面,以往的爬虫在满足爬全率(recall)的同时牲牺了爬准率(harvest)以及爬行效率,而为了提高爬准率往往又降低了爬全率。通过采用前后端分类器,前端基于链接语境图训练链接预测分类器,使爬虫具有一定的穿越隧道的能力,后端使用主题内容分类器识别主题相关网页,同时使用网页内容可视化分块技术,并基于链接的综合价值进行网页预测,提高了爬全率、爬准率及爬行效率。 (2)提出了基于无监督聚类的PU文本分类方法。传统的机器学习文本分类模型需要大量的标注语料做为训练集,PU文本分类算法是解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题,而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键,本文提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)-CBRN,并对已有的PU文本分类算法进行了改进并提出了SPY-SVM算法,提高了可信反例提取的数量和准确率,也提高了PU文本分类的准确率。 (3)评价挖掘是针对特定领域主题的主观性文本自动提取有用的情感信息和知识,可为政府部门、企业及用户提供有价值的意见信息。本文针对中文文本进行褒、贬情感倾向性分析,提出了三种情感倾向性分析算法,1)基于规则及情感词提取评价四元组的评价挖掘算法和基于unigram+评价短语特征的机器学习评价挖掘算法,2)基于字符串核函数的评价挖掘算法,3)基于规则及聚合模型的句子级到篇章级的中文评价挖掘算法。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
2 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
3 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
4 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
5 陈淼;;基于数据包分析的网页还原技术研究[J];中国科技信息;2011年16期
6 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
7 杨智勇;曹航;;网页资源长期保存的标准和技术研究[J];档案;2011年03期
8 黄瑾娉;苏庭波;;一种产品评论信息的意见挖掘技术研究[J];工业控制计算机;2011年06期
9 王静;刘观宁;张钰辉;;网页去重的改进算法[J];微型机与应用;2011年12期
10 虞欣平;董海量;;一种实用的网络舆情监控系统[J];福建电脑;2011年06期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
10 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
6 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
7 路人甲;请个专家来贴图[N];电脑报;2005年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
5 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
6 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
7 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
8 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
9 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
10 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026