基于文本分类技术的信息过滤方法的研究
【摘要】:
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。但传统的基于关键字或基于IP地址的过滤等过滤技术已不能很有效的解决这些问题,由此该课题对基于文本分类技术的过滤方法进行深入研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。
本课题将文本分类技术应用到中文信息过滤领域,提出了一种基于文本分类技术的信息过滤算法。首先对网络中收集的文本进行预处理工作,改进的预处理方法使两个字以上的纯中文词成为代表文本信息的特征项。其次,该文借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上结合词的属性特征来分析文本的整体特征。该系统还根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。同时,由于基于统计的文本过滤技术忽略了文本中的语义约束,不能真正达到对文本的智能分析,所以在该算法中还引入了局部语义分析,不仅从整体特征还从局部特征对文本进行分析,综合考虑了文本的统计特性和知识特性两方面因素,从而实现了对文本的分析过滤,经初步测试获得了对特定文本信息安全过滤的较好效果。
实验结果表明,论文中所提出的算法能够对文本中的敏感信息进行识别,从而实现了对文本内容的分析,达到对文本安全过滤的目的。但要使信息过滤智能化,是一个复杂漫长的过程,论文提出的算法只是一个开端,有待于进一步研究。
|
|
|
|
1 |
谭敏;;基于UML的公安情报自动分类系统设计[J];价值工程;2011年11期 |
2 |
高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期 |
3 |
薛燕波;WEB文本分类技术在企业竞争情报分析中的应用[J];情报科学;2004年03期 |
4 |
李国栋,李卫;基于文本分类技术的垃圾邮件识别系统[J];微电子学与计算机;2004年06期 |
5 |
王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期 |
6 |
王涛,孙河山;Web挖掘技术在搜索引擎中的应用[J];情报理论与实践;2002年04期 |
7 |
孟庆春,王汉萍,魏天滨,葛艳,高云;一种基于粗糙集的文本分类规则抽取方法[J];青岛海洋大学学报(自然科学版);2003年06期 |
8 |
李淑文;试论文本自动分类[J];现代计算机;2004年07期 |
9 |
王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期 |
10 |
程美群,陈能华;高校信息资源专业搜索引擎建设探讨[J];情报科学;2004年02期 |
11 |
孙建涛,沈抖,陆玉昌,石纯一;网页分类技术[J];清华大学学报(自然科学版);2004年01期 |
12 |
卢雪燕;基于关键词的文献分类[J];广西大学梧州分校学报;2004年04期 |
13 |
陈雪天,李荣陆;使用最大熵模型进行文本分类[J];计算机工程与应用;2004年35期 |
14 |
王明春,王正欧,张楷,郝玺龙;一种基于CHI值特征选取的粗糙集文本分类规则抽取方法[J];计算机应用;2005年05期 |
|