收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于启发式规则和文本分类的信息过滤技术

王银利  
【摘要】: 随着Internet使用的日益普遍,网络给人们带来了无比丰富的信息,但是,Internet也充斥着各种色情、反动或者是暴力的信息和各种互联网病毒,网络上存在的各种不良信息等越来越多的干扰着人们正常使用互联网。如何有效控制这些信息的传播,并保障网络的内容安全已经成为信息过滤研究的主要内容之一。互联网中出现的不良文本大多以文本的形式出现,因此不良文本过滤技术已经成为不良信息过滤领域中的主要研究方向了。 论文首先概述了信息过滤技术的基础知识:概念、分类、与其他信息处理技术的差别、常用的信息过滤模型。接着介绍了信息过滤系统中对文本的预处理过程,如:分词、特征选择等。然后介绍了Na(?)ve Bayes(NB)分类器、KNN(K NearestNeighbor)算法、SVM(support Vector Machine)等文本分类算法。 本文重点介绍了判别式Na(?)ve Bayes(NB)文本分类算法。这一部分首先介绍了贝叶斯文本分类算法中常用的两种模型,以及二分类朴素贝叶斯文本分类算法的实现过程;然后详细介绍了判别式贝叶斯分类算法的优点及其详细实现过程;最后将判别式Na(?)ve Bayes分类算法应用到文本信息过滤领域中,设定文本的类别为两类:健康文本和可疑文本,提出了判别式Na(?)ve Bayes文本分类算法。 文章最后提出了一种基于启发式规则和文本分类算法相结合的多级信息过滤模型。首先介绍了基于启发式规则的信息过滤模型,针对现在互联网上出现的不良信息的表现形式进行了规则库的设计和规则的设定。然后比较了基于规则的信息过滤和基于文本内容的信息过滤模型,结合二者的优缺点,本文提出了一种基于启发式规则和判别式Na(?)ve Bayes分类算法相结合的多级信息过滤模型(RDNB),具体的实现过程如下:首先用启发式规则来实现第一步的粗过滤,然后用判别式Na(?)ve Bayes文本分类器实现细过滤,最终判定文本的类别。实验结果表明,这种多级过滤模型取得了较好地准确率和F1测试值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 曹全军;初红艳;费仁元;;启发式算法和遗传算法在生产调度中的应用[J];中国机械工程;2006年S2期
2 崔广才,陶丽华,杨敬松;基于混合遗传算法的车间作业计划调度方法[J];长春理工大学学报;2002年02期
3 周颖;王国玉;王雪松;肖顺平;;基于启发式混合遗传算法的相控阵雷达最优化调度[J];系统工程与电子技术;2006年07期
4 滕加庄;孙博;毕学文;臧才;;一种改进混合遗传算法解决车间作业调度问题的研究[J];吉林化工学院学报;2009年04期
5 曾囡莉,王明哲,廖晓昕,沈轶;基于规则的遗传算法[J];控制工程;2003年04期
6 沈海峰;黄河燕;陈肇雄;;串空间代数缺陷到实际攻击的转换[J];计算机科学;2005年07期
7 邹娟;周经野;邓成;刘玲;;基于多重启发式规则的中文文本特征值提取方法[J];计算机工程与科学;2006年08期
8 肖志娇;常会友;衣杨;;启发式规则与GA结合的优化方法求解工作流动态调度优化问题[J];计算机科学;2007年02期
9 杨哲;;基于启发式规则的本体概念语义相似度匹配[J];计算机应用;2007年12期
10 魏明山;章丰田;苏海艳;杨雪莲;米小娟;;用顶点着色问题的贪婪算法解决排课问题[J];电脑学习;2010年02期
11 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[J];中文信息学报;2011年03期
12 吴鹏飞;孟祥增;刘俊晓;马凤娟;;网页区域分割与识别技术[J];现代计算机;2006年06期
13 张志伟;孔凡让;柴华;;从Postscript格式文献中提取数学公式的方法[J];数据采集与处理;2008年04期
14 廖涛;刘宗田;孔庆苹;;Web表格信息抽取模型的设计与实现[J];计算机应用与软件;2009年04期
15 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
16 王苑;徐德智;陈建二;;复杂中文文本的实体关系抽取研究[J];计算机科学;2009年08期
17 廖涛;刘宗田;孙荣;;Web表格定位技术的研究与实现[J];计算机科学;2009年09期
18 马炫;刘庆;;求解多背包问题的人工鱼群算法[J];计算机应用;2010年02期
19 李楠;郑荣廷;吉久明;滕青青;;基于启发式规则的中文化学物质命名识别研究[J];现代图书情报技术;2010年05期
20 韩瑞珍,陈国定,杨马英;基于PID控制的新型模糊控制方法[J];工业控制计算机;2001年09期
中国重要会议论文全文数据库 前10条
1 刘辙;彭亮;崔广才;吴学礼;;混合遗传算法在车间调度中的应用[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
2 王辉;左万利;;利用质心向量构建增量式分类器(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘飚;刘艳敏;封化民;方勇;宋国森;;基于新型坐标树的页面分析和内容提取方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 黄亚才;李秀喜;钱宇;;启发式规则在炼油厂短期原油调度模型中的应用[A];2009中国过程系统工程年会暨中国mes年会论文集[C];2009年
5 曹伟伟;李铁克;;基于约束满足的Job Shop调度算法中的启发式规则[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
6 张潜;高立群;胡祥培;;定位-运输路线安排问题的混合优化算法研究[A];2005中国控制与决策学术年会论文集(上)[C];2005年
7 邱鹍;封化民;宋国森;;基于启发式规则的多媒体主题信息挖掘[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
8 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 宋锐;林鸿飞;常富洋;;中文比较句识别及比较关系抽取[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 刘小峰;陈传波;刘云生;;移动对象范围最接近邻居查询处理算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 周国华;生产作业调度问题的软计算方法研究[D];西南交通大学;2003年
2 张宝;粒子群算法及其在卫星舱布局中的应用研究[D];大连理工大学;2007年
3 史彬;流程工业间歇生产调度中并行列队竞争算法的应用研究[D];武汉理工大学;2010年
4 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
5 罗春鹏;炼油企业生产调度研究[D];浙江大学;2008年
6 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
7 王沛;基于分支定价的多星多站集成调度方法研究[D];国防科学技术大学;2011年
8 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
9 李明;炼油过程生产调度建模方法研究[D];山东大学;2011年
10 宋洁蔚;油品生产与储运调度问题研究[D];浙江大学;2003年
中国硕士学位论文全文数据库 前10条
1 王银利;基于启发式规则和文本分类的信息过滤技术[D];北京交通大学;2007年
2 郭圣文;机械类中小型企业车间生产调度问题研究[D];广东工业大学;2000年
3 万芳;基于遗传算法的车间作业调度问题研究与应用[D];南昌大学;2005年
4 付纯琦;制造企业二级分销网络布局的仿真优化研究[D];大连理工大学;2006年
5 董静茹;基于链接背景信息的启发式主题爬行[D];吉林大学;2006年
6 赵源祥;机加生产排程决策支持系统[D];上海交通大学;2007年
7 孙翀;自动填充深度网入口表单[D];吉林大学;2007年
8 林薇;多目标多约束环境下的生产计划与作业调度方法研究[D];东华大学;2008年
9 刘洁;基于支持向量机的网络入侵检测系统研究[D];中南大学;2008年
10 孙凯;基于启发式算法的成像卫星星地联合调度问题研究[D];国防科学技术大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978