收藏本站
《北方工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

文本过滤防火墙技术研究

李霞  
【摘要】:随着信息网络的飞速发展,互联网已经成为世界上内容最丰富,范围最广泛的资源库。人们在充分享受信息共享所带来便利的同时,却也饱受着大量“无关信息”和“垃圾信息”的折磨,而且许多“有害信息”也正威胁着广大未成年人的身心健康。 许多国家和地区已经意识到这一问题的严重性,大力地开展了相关讨论和研究,采取措施进行网络信息过滤。网络信息过滤,就是根据用户的信息需求,采用一定的工具或手段从大规模的动态信息流中筛选出满足用户需求的信息,同时屏蔽掉无用信息的过程。 围绕着如何实现一个实时在线的网页文本内容过滤系统,本文主要进行了以下几方面的研究。首先,本文阐述了网络信息过滤的基本问题,包括信息过滤的基本原理,相关信息检索模型以及过滤系统的性能评价指标等。其次,着重对网页文本内容过滤中的相关技术进行了深入地分析和研究。主要包括网页正文提取技术、中文分词技术以及特征提取技术等,并在此基础上,提出了一种新的技术解决方案,即采用基于IE浏览器插件(BH0)的网页文本内容三级过滤系统。一级过滤是URL过滤,二级过滤是关键字组合过滤,三级过滤是基于向量空间模型的网页内容分析过滤。接着,本文对该方案进行了设计和实现,并对系统的总体框架、功能模块以及相关过滤算法和所采取的具体策略进行了详细地介绍。最后,本文对所实现的系统进行了测试,实验证明,该系统具有良好的过滤性能和运行速度。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王卫玲;赵秀丽;张燕红;王凤芹;;文本过滤中的特征选择[J];微计算机信息;2010年21期
2 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
3 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
4 张霞;;基于文本过滤的Web页面检索研究[J];电脑知识与技术;2008年26期
5 汪洋;基于Web的信息资源的可利用性[J];合肥联合大学学报;2001年03期
6 李振星,徐泽平,唐卫清,唐荣锡;基于兴趣模型的WEB信息预测采集过滤方法[J];计算机工程与应用;2003年05期
7 李振星,陆大珏,任继成,唐卫清,唐荣锡;基于潜在语义索引的Web信息预测采集过滤方法[J];计算机辅助设计与图形学学报;2004年01期
8 陈江兵;张巍;;基于状态转换方法的不良信息文本过滤模型[J];江西教育学院学报;2005年06期
9 赵丰年;刘林;商建云;;基于概念的文本过滤模型[J];计算机工程与应用;2006年04期
10 原媛;孙敏;;基于CLARA的KNN文本分类过滤防火墙的设计实现[J];电脑开发与应用;2007年10期
11 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
12 林鸿飞,战学刚,姚天顺;文本特征区域与文本过滤的匹配机制[J];计算机工程与应用;2000年07期
13 赵林,胡恬,黄萱菁,吴立德;基于知网的概念特征抽取方法[J];通信学报;2004年07期
14 刘淑梅;桑书娟;山岚;;文本过滤研究概述[J];信息技术;2009年09期
15 朱祥玉;侯德文;;基于概念学习的过滤模板获取方法[J];计算机技术与发展;2006年05期
16 彭作民;;一个基于语义分析的文本过滤方法[J];计算机与信息技术;2007年09期
17 桑书娟;闫怀平;;信息过滤研究概述[J];福建电脑;2010年09期
18 夏迎炬;黄萱菁;胡恬;吴立德;;文本过滤中一种阈值调整算法[J];模式识别与人工智能;2002年04期
19 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期
20 张帆;杨炳儒;;基于文本过滤的数字图书馆个性化服务技术[J];计算机工程与应用;2006年31期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
5 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
9 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
10 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
4 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
5 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
6 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
7 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
2 王立建;中文web文本过滤技术研究[D];中北大学;2010年
3 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
5 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
6 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
7 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
8 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
9 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
10 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978