收藏本站
《电子科技大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

一种不良文本过滤方法

周俊  
【摘要】:随着互联网的迅速发展,一些不法分子利用网络来散布反动、色情、诈骗或者暴力等不良信息,对社会的稳定、价值导向,特别是青少年的健康成长构成了极大的危害。如何净化网络环境,过滤掉不良信息,是当前互联网建设和监控上的一个重要的研究热点。 目前,不良文本过滤主流的研究方法是基于文本内容智能分析的过滤,主要包括向量空间模型法,神经网络法以及语义过滤法。神经网络法以及语义过滤主要缺点在于算法复杂,执行速度慢,向量空间模型则是文档相关度计算量大,缺乏语义因素,基于以上不足,不良文本过滤的研究方向主要集中在提高过滤精度和降低过滤耗时上。本文的主要目的就是设计一个不良文本过滤方法,在保持精度的条件下,最大限度的降低过滤所耗费的时间,并且在不良文本训练库不充分的条件下,也能实现较高的性能。 本文在分析自然语言处理过程中分词,特征选择,分类方法等在内的基础上,通过对过滤阀值,归一化,文本表示,数据不均衡以及训练库不充分等各种实际情况的分析和实验,提出了一种新的不良文本过滤方法,并最终通过实验验证了方法的有效性。 具体地说,本文的工作主要包含下列内容: 1、使用了一种新的文本权重计算方法。该方法充分考虑了特征项在待表示文本中的频数以及指定特征项对于类别区分度的大小两个因素,能够更好的表示文本。 2、针对常用不良文本过滤方法耗时较长的实际情况,提出了一个不良文本过滤方法。该方法在保证准确率和召回率的基础上,很大程度上降低了不良文本过滤所需求的时间。 3、针对互联网环境下,训练文本库总是不充分的情况,收集了不充分和相对比较充分的两种语料库,并通过实验证明了本文提出的方法在这两种语料库中的过滤性能上优于经典方法。 4、针对正反特征项集合数据不均衡性的问题,提出了两种解决数据不均衡型问题的方法,充分考虑了正反特征项的实际作用,在这两种解决不均衡型问题的方法中,都引入了归一化的方法,并通过实验验证了方法的有效性。 5、设计并验证了基于正反特征项差值的过滤方法,提出了界限值的概念以及界限值的确定方法,使用归一化和非归一化两种思路来进行判定,并通过实验得到了测试文本中最佳界限值。 6、综合上述实验,得到新的不良文本过滤方法的最佳实现策略,并通过实验验证了该策略的有效性。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
2 彭昱忠;元昌安;覃晓;蔡宏果;;基于内容的网络不良文本信息动态过滤技术探析[J];广西师范学院学报(自然科学版);2008年04期
3 卢新国,林亚平,陈治平;一种改进的互信息特征选取预处理算法[J];湖南大学学报(自然科学版);2005年01期
4 李强;李建华;;基于向量空间模型的过滤不良文本方法[J];计算机工程;2006年10期
5 王洪彬;刘晓洁;;基于KNN的不良文本过滤方法[J];计算机工程;2009年24期
6 王秀娟,郭军,郑康锋;文本分类中一种新的特征选择方法[J];计算机应用;2005年03期
7 郭进;统计语言模型及汉语音字转换的一些新结果[J];中文信息学报;1993年01期
8 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
9 孙飞显;李涛;蒋亚平;王铁方;倪建成;龚勋;;基于人工免疫原理的中文姓名识别方法[J];四川大学学报(工程科学版);2006年01期
10 印鉴;谭焕云;;基于χ~2统计量的kNN文本分类算法[J];小型微型计算机系统;2007年06期
中国重要会议论文全文数据库 前1条
1 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
4 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
5 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前4条
1 徐晓琦;基于混合策略的中文文本过滤技术研究[D];华中师范大学;2006年
2 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
3 袁新成;基于向量空间模型的自适应文本过滤研究[D];哈尔滨工业大学;2006年
4 杨春喜;Web文本内容过滤关键技术的分析与研究[D];暨南大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
3 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
4 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
5 张昭;何东健;;基于计算机视觉的竹块颜色分类方法研究[J];安徽农业科学;2010年26期
6 汪洁;朱军;;基于Linux的中文垃圾邮件过滤系统设计与实现[J];安徽农业大学学报;2011年02期
7 苏科;陈志彬;;基于BP神经网络的车牌识别系统[J];辽宁科技大学学报;2010年05期
8 孙梁;郗安民;;LED芯片损坏和缺陷识别[J];半导体光电;2009年06期
9 张贵,乔春生;应用支持向量机回归确定岩体强度指标[J];北方交通大学学报;2004年01期
10 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
中国重要会议论文全文数据库 前10条
1 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
5 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
6 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
7 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
8 江萍;;车牌分割中的阈值选择策略[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
9 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
10 冯辅周;郭恒毅;江鹏程;;支持向量机及其在电机故障诊断中的应用[A];第九届全国振动理论及应用学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
6 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
7 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
8 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
9 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
10 傅军;新型墙体抗裂抗渗性能及工程应用研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
9 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
10 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙多;;基于兴趣度的聚类协同过滤推荐系统的设计[J];安徽大学学报(自然科学版);2007年05期
2 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
3 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
4 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
5 白丽君,张永奎,陈鑫卿;协作过滤研究概述[J];电脑开发与应用;2002年11期
6 黄晓斌,邱明辉;网络信息过滤方法的比较研究[J];大学图书馆学报;2005年01期
7 吴吉义;林志洁;龚祥国;;基于协同过滤的移动电子商务个性化推荐系统若干研究[J];电子技术应用;2007年01期
8 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
9 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
10 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
中国博士学位论文全文数据库 前3条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前7条
1 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
2 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
3 李东艳;互联网信息内容安全过滤方法研究[D];山西大学;2004年
4 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
5 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
6 迟学芝;基于自学习机制的信息过滤模型研究与实践[D];山东师范大学;2005年
7 李东林;中文信息过滤技术的研究与应用[D];辽宁科技大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 王卫玲;赵秀丽;张燕红;王凤芹;;文本过滤中的特征选择[J];微计算机信息;2010年21期
2 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
3 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
4 张霞;;基于文本过滤的Web页面检索研究[J];电脑知识与技术;2008年26期
5 汪洋;基于Web的信息资源的可利用性[J];合肥联合大学学报;2001年03期
6 李振星,徐泽平,唐卫清,唐荣锡;基于兴趣模型的WEB信息预测采集过滤方法[J];计算机工程与应用;2003年05期
7 李振星,陆大珏,任继成,唐卫清,唐荣锡;基于潜在语义索引的Web信息预测采集过滤方法[J];计算机辅助设计与图形学学报;2004年01期
8 陈江兵;张巍;;基于状态转换方法的不良信息文本过滤模型[J];江西教育学院学报;2005年06期
9 赵丰年;刘林;商建云;;基于概念的文本过滤模型[J];计算机工程与应用;2006年04期
10 原媛;孙敏;;基于CLARA的KNN文本分类过滤防火墙的设计实现[J];电脑开发与应用;2007年10期
中国重要会议论文全文数据库 前10条
1 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
4 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
6 张敏;马亮;马少平;陈群秀;;TREC2002介绍及清华大学实验研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
9 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 ;内容简介[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前3条
1 记者 徐建华;“绿色上网”新标准为手机扫黄[N];中国质量报;2010年
2 记者 徐建华;网络扫黄 标准帮忙[N];中国质量报;2010年
3 本报记者 徐建华;我国着力构建绿色上网标准体系[N];中国质量报;2009年
中国博士学位论文全文数据库 前6条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
6 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘力;不良文本过滤系统的研究与实现[D];复旦大学;2011年
2 周俊;一种不良文本过滤方法[D];电子科技大学;2012年
3 温园旭;变体短文本过滤算法研究[D];北京邮电大学;2013年
4 蔡晓宇;基于个性化学习的文本过滤算法研究[D];华中科技大学;2013年
5 周聚;基于网络信息审计的文本过滤的研究与实现[D];苏州大学;2010年
6 邵建双;基于概念格的文本过滤系统的设计与实现[D];大连海事大学;2010年
7 孙浩;基于主动学习的文本过滤系统的研究[D];北京邮电大学;2011年
8 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
9 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
10 张磊;虚拟社区不良信息过滤技术研究[D];昆明理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026