收藏本站
《北京交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

一种舆情信息预处理平台的研究与实现

胡少荣  
【摘要】:随着网络信息化的不断发展,舆论的传播方式和传播速度都发生了巨大的变化,互联网已成为我国的主要舆论聚集地,并且无时不刻的影响着人们的生活。因此通过网络分析研究舆情信息可以了解大众心态和民意,对经济、社会、政治的发展都具有重要的意义。但是网络传播的信息具有数据量大、半结构化、异构性等特点,使得人们在获取相关信息和进行研究工作都面临很大的困难,因此需要建立一种舆情信息预处理平台来完成互联网信息的分析预处理。 本论文首先对国内外舆情信息预处理的相关技术进行了研究及分析,总结了它们的优缺点,深入分析了舆情信息预处理平台的设计和技术实现等方面的问题,然后在现有技术的基础之上提出了用于舆情信息预处理的技术方案,实现了将海量网页信息进行处理分析以及重复利用的功能。 本文的研究内容和主要成果有:深入分析了URL结构的特点,采用了URL比较分析的方法对海量网页进行处理,完成了对用户指定网站的筛选过滤;提出了对文档对象建模的网页信息抽取算法,并且设计了基于抽取规则的文档对象匹配模板库,对网页中的无关信息进行滤除,并且将提取到的关键信息录入关系型数据库,以备日后的分析和使用;提出了基于四字索引分词词典的实现方案,采用最大正向匹配算法对中文内容进行扫描切分,较准确地完成了对中文信息的分词处理和词频统计等功能;在对多线程机制深入研究的基础上,提出了利用线程池来管理多线程的技术方案,使系统效率得到了较好的改善。通过实验验证了本文所提出的信息处理方案,实验结果表明,本文设计的方案高效可行,有很高的准确率和使用价值。 本文基于以上的工作,根据平台的总体设计原则,规划了舆情信息预处理平台的总体框架结构,完成了平台的模块划分,设计了各模块的功能以及数据库结构,最终开发出了一种运行稳定,效率良好的舆情信息预处理平台,希望通过本论文的研究能够对舆论分析的理论研究做出微薄的贡献。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期
2 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
3 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
4 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
5 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
6 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
7 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
8 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
9 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
10 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
11 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
12 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
13 李莲春;周金治;;网络音视频语义信息抽取系统[J];计算机工程;2011年13期
14 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
15 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
16 赵小明;朱洪波;陈黎;王亚强;秦湘清;于中华;;基于多分类器的金融领域多元关系信息抽取算法[J];计算机工程与设计;2011年07期
17 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
18 卫佳君;宋继华;;自动文摘的方法研究[J];计算机技术与发展;2011年08期
19 陈淼;;基于数据包分析的网页还原技术研究[J];中国科技信息;2011年16期
20 许建豪;;基于电子商务的精确搜索引擎的研究与实现[J];南宁职业技术学院学报;2011年04期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
6 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
7 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
8 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
9 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
3 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
4 彭芳;搜索也专业[N];中国计算机报;2004年
5 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
6 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
7 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
8 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
9 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
10 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
中国博士学位论文全文数据库 前10条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
5 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
7 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
8 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
9 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
10 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978