收藏本站
《合肥工业大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

文本内容的信息过滤技术研究

董梅  
【摘要】:随着互连网络的迅速发展,人们获得越来越多的网络信息,但同时也存在着很大的负面性,如各种迷信、色情、暴力、反动和其他非法信息的传播,内部网中机密信息的泄漏等,都已成为人们日益关注的焦点问题。传统的过滤技术,如基于关键字或基于IP地址的过滤等,不能有效的解决这些问题。 本文对文本分类和信息过滤技术进行了研究,提出了一种多特征选择方法。将机器学习和信息过滤技术相结合,设计出了自适应信息过滤系统。本文主要工作如下。 (1)概述了信息过滤的发展历史、研究现状和实际意义,以及数据挖掘、文本分类等相关知识。 (2)分析了信息过滤的相关理论。文本分类是信息过滤的基础,文章详细介绍了文本分类过程,文本预处理、特征选择、文本表示模型和分类算法等关键技术。对信息过滤的主要方法、信息过滤系统构成和模型也作了重点介绍。 (3)详细讨论了几种常见的特征选择方法。通过实验,对各种特征选择方法的效果进行比较,分析了影响文本分类器性能的几种因素。在此基础上,我们提出一种新的特征选择方法,即多特征选择法。实验证明,利用多特征选择方法进行文本分类,其精度优于任何一种单一特征选择方法。 (4)本文最后设计并实现了基于向量空间模型的自适应信息过滤系统。本系统对传统的信息过滤系统进行了自适应改进,通过修改过滤模板算法,让系统根据用户的反馈信息,自适应地调整阈值,达到提高过滤质量的效果。实验结果表明,改进后的系统过滤性能有明显提高。
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前5条
1 吕静;基于Rough集理论的信息过滤研究[D];南昌大学;2007年
2 魏善岭;面向互动型网络媒体的不良信息检测与过滤[D];大连海事大学;2009年
3 沈凤仙;一个WEB文本过滤系统设计与实现[D];苏州大学;2009年
4 邱齐辉;基于决策树和贝叶斯算法的垃圾网页检测的研究和实现[D];北京工业大学;2012年
5 李光耀;基于分类技术的个性化检索系统的研究与设计[D];武汉理工大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 陈栋;刘兵;徐洁磐;;KDD研究现状及发展[J];计算机科学;1996年06期
4 卜东波,白硕,李国杰;聚类/分类中的粒度原理[J];计算机学报;2002年08期
5 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
6 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
7 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
8 卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期
9 田范江,李丛蓉,王鼎兴;进化式信息过滤方法研究[J];软件学报;2000年03期
10 解冲锋,李 星;基于序列的文本自动分类算法[J];软件学报;2002年04期
中国硕士学位论文全文数据库 前1条
1 张玉红;基于概念格扩展模型的分类问题研究[D];合肥工业大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
2 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
3 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
4 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
5 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
6 张红云,马垣;数据挖掘与决策支持系统的关系[J];鞍山师范学院学报;2001年03期
7 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
8 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
9 陈增照;杨扬;董才林;何秀玲;;支持向量机动态学习方法及其在票据识别中的应用[J];北京科技大学学报;2006年02期
10 张国英,沙云,刘旭红,刘玉树;高维云模型及其在多属性评价中的应用[J];北京理工大学学报;2004年12期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
4 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
5 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
8 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
9 邢延铭;诸克军;李春平;;一种基于遗传算法和模糊规则的分类算法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
10 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
2 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 许相莉;基于智能计算的图像检索算法研究[D];吉林大学;2011年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
8 刘伟;综放工作面煤矸界面识别理论与方法研究[D];中国矿业大学(北京);2011年
9 胡军;基于覆盖的粒计算模型及其应用研究[D];西安电子科技大学;2010年
10 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 曲昆鹏;基于支持向量机的杂草识别研究[D];哈尔滨工程大学;2010年
7 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
8 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
9 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
10 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 黄鑫,尹宝林;多层次多策略的分布式网络信息过滤系统模型[J];北京航空航天大学学报;2003年10期
3 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
4 崔广才,尹巧珍;一种基于遗传算法的属性约简算法[J];长春理工大学学报;2003年03期
5 林阳,祝智庭;国外因特网内容标记与过滤技术调查[J];电化教育研究;2002年02期
6 费宗莲;病毒防火墙的内容过滤技术[J];计算机安全;2004年04期
7 孙春来,段米毅,毛克峰;基于内容过滤的网络监控技术研究[J];高技术通讯;2001年11期
8 黄志强;贾宇波;;Web访问挖掘中数据预处理的改进[J];广西师范大学学报(自然科学版);2007年02期
9 伊文敏,高岩,王颖;评估信息过滤系统的方法及衡量标准概述[J];河北建筑工程学院学报;2004年02期
10 吕汇新;一个基于模式匹配入侵检测技术的防信息泄露系统的设计与实现[J];哈尔滨师范大学自然科学学报;2004年03期
中国博士学位论文全文数据库 前2条
1 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
2 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年
中国硕士学位论文全文数据库 前10条
1 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年
2 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年
3 蔺继国;基于点击数据分析的个性化搜索引擎研究[D];国防科学技术大学;2010年
4 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
5 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
6 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
7 岳晓冬;基于粗糙集理论的连续值属性离散化方法研究[D];山西大学;2006年
8 吴尚智;基于粗糙集理论的属性约简算法研究[D];西北师范大学;2006年
9 林颖;基于Web挖掘的信息推荐技术研究[D];扬州大学;2006年
10 贾美娟;基于互联网的不良信息过滤技术的设计与实现[D];哈尔滨工程大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 陈忆金;曹树金;陈少驰;陈珏静;;网络舆情信息监测研究进展[J];图书情报知识;2011年06期
中国硕士学位论文全文数据库 前5条
1 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
2 王芸;基于Rough集的垃圾邮件过滤技术的研究与应用[D];南昌大学;2008年
3 梁澈;粗糙集理论在煤矸石图像识别技术中的应用[D];西安科技大学;2010年
4 陈春源;基于服务器端的HTTP信息过滤系统设计与实现[D];华南理工大学;2012年
5 王伟华;基于互信息的网页信息过滤技术的研究与应用[D];南昌航空大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 李建中;日新月异的数据库研究领域——数据库技术的回顾与展望[J];黑龙江大学自然科学学报;2002年02期
2 许龙飞,杨晓昀;KDD中广义关联规则发现技术研究[J];计算机工程与应用;1998年09期
3 丁德恒;;大规模数据库中的知识获取[J];计算机科学;1994年05期
4 陈栋;刘兵;徐洁磐;;KDD研究现状及发展[J];计算机科学;1996年06期
5 王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯;基于Rough Set理论的“数据浓缩”[J];计算机学报;1998年05期
6 刘振凯,贵忠华;基于人工神经网络的知识获取方法[J];计算机应用研究;1999年05期
7 马廷淮,张海盛;分布式数据挖掘的集成体系结构研究[J];计算机应用研究;2003年11期
8 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
9 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
10 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 房敏;;高校数字图书馆个性化服务综述[J];科技创新导报;2010年33期
2 徐义峰;蒋慧新;周浩;;基于Web的信息过滤模型研究[J];商场现代化;2006年31期
3 姚磊岳;熊建英;;一种基于中文分词算法的信息过滤技术[J];科技广场;2007年07期
4 宋媛媛,孙坦;由信息过滤引发的基于知识的过滤机制构想[J];图书情报工作;2005年03期
5 易明;王学东;;基于领域本体的数字图书馆信息过滤模型研究[J];中国图书馆学报;2009年03期
6 周二虎;张水平;谢必昌;;信息过滤技术在智能信息推送系统中的应用[J];软件导刊;2010年01期
7 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
8 林建;张帆;;网络不良信息过滤研究[J];情报理论与实践;2007年04期
9 崔虹燕;;基于安全审计的网络信息过滤研究[J];兰州工业高等专科学校学报;2007年03期
10 姜恩波;搜索引擎的信息过滤技术[J];现代图书情报技术;2001年03期
中国重要会议论文全文数据库 前6条
1 张小兵;李靖;;试论信息过滤技术的发展趋势[A];第十八次全国计算机安全学术交流会论文集[C];2003年
2 李荣陆;张永奎;牛伟霞;;基于概念的信息过滤技术探讨[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 毛颖;周源远;王继成;;信息过滤技术研究[A];第一届学生计算语言学研讨会论文集[C];2002年
4 孙铁利;邱春艳;杨焱;;基于Agent的个性化信息过滤技术与实现方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
5 张玉连;张波;张敏;;改进的个性化信息推荐系统的设计与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 李宝林;兰芸;赵云霞;李玲飞;;基于内容的Internet信息过滤方法研究综述[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
中国重要报纸全文数据库 前10条
1 ;提供一个纯净的网络空间[N];中国电脑教育报;2002年
2 曾革楠;遏止网络犯罪媒体责无旁贷[N];中国新闻出版报;2007年
3 尹训宁;部分即时通讯软件的特色[N];中国知识产权报;2006年
4 ;视频通信发展走势[N];通信产业报;2003年
5 本报实习记者  李丹;网络监控困境[N];计算机世界;2006年
6 本报记者 赵建国;网络过滤技术护航青少年健康上网[N];中国知识产权报;2009年
7 姜辉 王羽 管永利;视频会议系统迎来第四次浪潮[N];计算机世界;2002年
8 许群;加强和完善档案保密工作之我见[N];中国档案报;2002年
9 翁佳焰;《个人信息保护法》呼声渐起[N];中国改革报;2009年
10 苏明;工业和信息化部加紧制定移动终端过滤软件技术标准[N];中国高新技术产业导报;2008年
中国博士学位论文全文数据库 前3条
1 李东方;Web 2.0环境下互联网信息过滤理论与方法研究[D];中国科学技术大学;2009年
2 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
3 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 丛健;不良信息过滤技术研究[D];北京邮电大学;2012年
2 杨明明;社会网络平台中的垃圾信息过滤技术研究[D];哈尔滨理工大学;2013年
3 关超;网络敏感信息过滤技术研究与实现[D];解放军信息工程大学;2009年
4 张鹏;基于会话的海量短信息过滤技术研究[D];辽宁大学;2011年
5 胡可;基于人工免疫系统的信息过滤技术研究[D];西南交通大学;2006年
6 林建;网络不良信息过滤研究[D];华中师范大学;2007年
7 宋宝亚;基于数据挖掘的信息过滤系统的设计与实现[D];山东师范大学;2006年
8 宗胜;基于情境兴趣和个人兴趣的用户偏好模型研究与设计[D];上海交通大学;2007年
9 胡敏;基于智能代理的个性化元搜索引擎的设计与实现[D];华中科技大学;2007年
10 马英财;社交网络下的垃圾信息过滤技术的研究[D];哈尔滨理工大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026