收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本分类技术的信息过滤方法的研究

牛洪波  
【摘要】: Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。但传统的基于关键字或基于IP地址的过滤等过滤技术已不能很有效的解决这些问题,由此该课题对基于文本分类技术的过滤方法进行深入研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。 本课题将文本分类技术应用到中文信息过滤领域,提出了一种基于文本分类技术的信息过滤算法。首先对网络中收集的文本进行预处理工作,改进的预处理方法使两个字以上的纯中文词成为代表文本信息的特征项。其次,该文借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上结合词的属性特征来分析文本的整体特征。该系统还根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。同时,由于基于统计的文本过滤技术忽略了文本中的语义约束,不能真正达到对文本的智能分析,所以在该算法中还引入了局部语义分析,不仅从整体特征还从局部特征对文本进行分析,综合考虑了文本的统计特性和知识特性两方面因素,从而实现了对文本的分析过滤,经初步测试获得了对特定文本信息安全过滤的较好效果。 实验结果表明,论文中所提出的算法能够对文本中的敏感信息进行识别,从而实现了对文本内容的分析,达到对文本安全过滤的目的。但要使信息过滤智能化,是一个复杂漫长的过程,论文提出的算法只是一个开端,有待于进一步研究。


知网文化
【相似文献】
中国期刊全文数据库 前14条
1 谭敏;;基于UML的公安情报自动分类系统设计[J];价值工程;2011年11期
2 高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期
3 薛燕波;WEB文本分类技术在企业竞争情报分析中的应用[J];情报科学;2004年03期
4 李国栋,李卫;基于文本分类技术的垃圾邮件识别系统[J];微电子学与计算机;2004年06期
5 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
6 王涛,孙河山;Web挖掘技术在搜索引擎中的应用[J];情报理论与实践;2002年04期
7 孟庆春,王汉萍,魏天滨,葛艳,高云;一种基于粗糙集的文本分类规则抽取方法[J];青岛海洋大学学报(自然科学版);2003年06期
8 李淑文;试论文本自动分类[J];现代计算机;2004年07期
9 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
10 程美群,陈能华;高校信息资源专业搜索引擎建设探讨[J];情报科学;2004年02期
11 孙建涛,沈抖,陆玉昌,石纯一;网页分类技术[J];清华大学学报(自然科学版);2004年01期
12 卢雪燕;基于关键词的文献分类[J];广西大学梧州分校学报;2004年04期
13 陈雪天,李荣陆;使用最大熵模型进行文本分类[J];计算机工程与应用;2004年35期
14 王明春,王正欧,张楷,郝玺龙;一种基于CHI值特征选取的粗糙集文本分类规则抽取方法[J];计算机应用;2005年05期
中国博士学位论文全文数据库 前1条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前5条
1 熊大康;中文短文本分类技术的研究与实现[D];安徽大学;2014年
2 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
3 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
4 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
5 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978