收藏本站
《山东师范大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自学习机制的信息过滤模型研究与实践

迟学芝  
【摘要】:随着以因特网为主体的信息高速公路的迅速发展,信息技术已经渗透到我们社会生活的方方面面。因特网上的信息呈指数级增长,信息增长带来了双面的效果。一方面,可以从因特网上获取丰富的、最新的信息。另一方面,网络上信息浩繁,内容庞杂,而且由于因特网信息的开放性、个人化,一些不法分子利用计算机网络复制、传播和查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息,这些信息对社会的危害是很大的。如何过滤掉与自己需求无关的信息,快速准确的获得所需信息并免受非法信息侵扰,已经成为当前互联网发展研究的一个重点。 本文主要研究Internet 上非法信息的过滤问题,内容涵盖了信息过滤的各个处理阶段,围绕信息过滤模型的过滤精度和过滤速度两个主要指标,在如下几个方面进行了研究和探讨: 1. 对现有的信息过滤模型以及机器学习在模型中的应用进行了深入分析 本文首先阐明了信息过滤技术的发展过程和发展趋势,分析了信息过滤模型涉及的关键技术及相关知识。在此基础上,分析了当前信息过滤模型存在的不足之处,如由于Internet 信息的复杂性和非法文档特征的不断改变,现有的信息模型自我学习、自我调整以适应环境变化的能力不足等;然后,从模型优化的角度考察了模型中能够使用机器学习进行改进的环节。 2. 提出了基于统计的停用词表产生方法和基于遗传算法的特征提取优化算法 分词和特征提取是信息过滤模型中非常重要的两个方面,本文分析了停用词的特点,提出了基于用户反馈的停用词表产生方法,进一步提高了分词的准确性;另外,本文构造了两级特征库并基于遗传算法对中心层特征库进行了优化,提出了一种新的特征提取优化算法。 3. 提出一个新的基于自学习机制的信息过滤模型 信息过滤的核心技术主要包括分词、特征提取、文档表示和文本分类四个部分。本文针对现有特征项权值统计能力不足,特征项数目和权值确定困难,特征项权值与分类算法阈值θ联系不足等问题,研究了Racchio 方法、决策树方法、基于实例的学习方法以及神经网络方法等机器学习方法在信息过滤中的应用,提出了一种新的基于自学习机制的信息过滤模型。 4. 提出了分层、分级、分策略的信息过滤技术 信息过滤技术是网络安全技术的一个重要方向,本文将安全规则建立和信息过滤实现模型的调整、优化相结合,面向应用提出了分层、分级、分策略的信息过滤技术,从而提高了信息过滤模型的适应能力和过滤速度。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
【参考文献】
中国期刊全文数据库 前8条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
3 阮彤,冯东雷,李京;基于贝叶斯网络的信息过滤模型研究[J];计算机研究与发展;2002年12期
4 辛涛,周明天;混合型防火墙的设计与实现[J];计算机研究与发展;1998年10期
5 李辉,史忠植,何清,许卓群;基于支撑向量置换核函数的一种领域知识与模型融合的技术[J];计算机学报;2002年08期
6 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
7 马恒太,蒋建春,陈伟锋,卿斯汉;基于Agent的分布式入侵检测系统模型[J];软件学报;2000年10期
8 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
4 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
5 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
6 蔡茂荣,陈波,陈强;分布式入侵检测体系结构研究[J];兵工自动化;2003年02期
7 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
8 黄鑫,尹宝林;多层次多策略的分布式网络信息过滤系统模型[J];北京航空航天大学学报;2003年10期
9 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
10 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 李培;李燕杰;刘晓燕;;基于移动Agent的分布式入侵检测系统[A];广西计算机学会2004年学术年会论文集[C];2004年
4 李培;李燕杰;刘晓燕;;基于移动Agent的分布式入侵检测系统[A];广西计算机学会——2004年学术年会论文集[C];2004年
5 李世林;安力;;入侵检测系统的设计与实现[A];第十八次全国计算机安全学术交流会论文集[C];2003年
6 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 李云霞;郑宏;李平;;基于遗传算法的自适应入侵检测系统研究[A];2005中国控制与决策学术年会论文集(下)[C];2005年
8 王新生;李彦辉;张颖;;基于代理的分布式入侵检测系统模型的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 刘冬梅;;协同防护入侵检测系统[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
10 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
3 马鑫;基于协同机制和智能算法的多代理系统研究及应用[D];吉林大学;2011年
4 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
7 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
8 丁永忠;基于无线传感器网络的大坝安全远程监测技术研究[D];武汉理工大学;2011年
9 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
10 林清水;效应代数上几类测度的若干研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
4 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
5 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
6 李露璐;分布式入侵检测系统的报警关联与分析算法[D];大连理工大学;2009年
7 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
8 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
9 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
10 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
2 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
3 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
4 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
5 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
6 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
7 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
8 晋耀红;基于语境框架的文本相似度计算[J];计算机工程与应用;2004年16期
9 金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期
10 刘明吉;基于协同演化的文本特征获取算法[J];计算机工程;2005年04期
中国硕士学位论文全文数据库 前4条
1 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
2 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
3 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
4 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
【二级引证文献】
中国硕士学位论文全文数据库 前6条
1 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
2 刘力;不良文本过滤系统的研究与实现[D];复旦大学;2011年
3 吕青普;科技文档的分类与查重[D];天津财经大学;2007年
4 李晓微;基于内容的中文文本过滤关键技术研究[D];东北师范大学;2008年
5 张维瑞;网络招聘信息个性化推荐技术研究[D];大连海事大学;2010年
6 周俊;一种不良文本过滤方法[D];电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
2 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
3 吴斌,史忠植;一种基于蚁群算法的TSP问题分段求解算法[J];计算机学报;2001年12期
4 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
5 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
6 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
7 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
8 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
9 佘坤,周明天,蔡兵;签证机关管理系统[J];软件学报;1995年06期
10 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
【相似文献】
中国期刊全文数据库 前10条
1 郑毅;;基于机器学习的IDS研究[J];现代电子技术;2006年21期
2 张铃;吴涛;周瑛;张燕平;;覆盖算法的概率模型[J];软件学报;2007年11期
3 林森;李志蜀;;用P-BP预测网络模型预测通信网络指标[J];计算机应用;2006年07期
4 吴江琴;高文;陈熙霖;;基于数据手套输入的汉语手指字母的识别[J];模式识别与人工智能;1999年01期
5 李思广;周雪梅;;基于机器学习的入侵检测系统[J];硅谷;2008年08期
6 单强;邱道尹;;基于LS-SVM的模糊控制器研究[J];华北水利水电学院学报;2008年02期
7 吴丽花,刘鲁;一种基于神经网络的信息推荐方法[J];计算机工程与应用;2005年25期
8 朱青;刘宇辉;;一种面向领域的组件质量度量算法[J];北京工业大学学报;2007年01期
9 吴建鑫;陈兆乾;周志华;;基于最优权值的选择性神经网络集成方法[J];模式识别与人工智能;2001年04期
10 单强;邱道尹;王志迁;;基于LS-SVM的模糊控制器分析与设计[J];科技信息(科学教研);2008年05期
中国重要会议论文全文数据库 前10条
1 何佳洲;周志华;陈兆乾;;基于IHMCAP算法的一个故障诊断模型[A];1998年中国智能自动化学术会议论文集(下册)[C];1998年
2 王宏生;周勇;张路;;基于神经网络的本体映射的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(下册)[C];2008年
3 陈振兴;贲可荣;;机器学习在软件预测与评估中的应用[A];2006年全国理论计算机科学学术年会论文集[C];2006年
4 古力.吐尔逊;吾布力艾山.沙吾提;古丽米热.尔西丁;波尼亚明;吐尔逊布比;;神经网络数据挖掘技术在地质数据分析中的应用[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
5 侯艳芳;冯红梅;;基于神经网络的调制识别算法的研究[A];武汉(南方九省)电工理论学会第22届学术年会、河南省电工技术学会年会论文集[C];2010年
6 沈建荣;杨林泉;陈琳;;神经网络的稳定性判据与区域经济结构调整[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
7 石山铭;李富兰;丁俊丽;;神经网络的知识获取[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
8 吴清烈;徐南荣;;基于神经网络的一种多目标决策方法[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
9 李晓钟;汪培庄;罗承忠;;神经网络与模糊逻辑[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
10 房育栋;余英林;;高阶自组织映射及其学习算法[A];1995年中国控制会议论文集(上)[C];1995年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
3 于翔;数字神经网络中的协同应用[N];网络世界;2009年
4 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
5 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
6 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
7 本报首席记者 任荃 实习生 史博臻;轨交“神经网络”触动创新神经[N];文汇报;2011年
8 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
9 计算机世界实验室 韩勖;当布线系统遭遇神经网络[N];计算机世界;2009年
10 记者 何边;网络化激活人工智能[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
2 刘志祥;深部开采高阶段尾砂充填体力学与非线性优化设计[D];中南大学;2005年
3 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
4 戴雪龙;PET探测器神经网络定位方法研究[D];中国科学技术大学;2006年
5 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
6 马戎;智能控制技术在炼钢电弧炉中的应用研究[D];西北工业大学;2006年
7 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
8 文敦伟;面向多智能体和神经网络的智能控制研究[D];中南大学;2001年
9 吴大宏;基于遗传算法与神经网络的桥梁结构健康监测系统研究[D];西南交通大学;2003年
10 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
中国硕士学位论文全文数据库 前10条
1 迟学芝;基于自学习机制的信息过滤模型研究与实践[D];山东师范大学;2005年
2 唐玉洁;基于机器学习的认知无线电频谱感知[D];哈尔滨工业大学;2010年
3 杨立儒;基于神经网络的电路故障诊断的研究与实现[D];解放军信息工程大学;2010年
4 刘兰兰;基于神经网络和遗传算法的H型钢粗轧工艺参数优化研究[D];山东大学;2011年
5 田鹏明;基于神经网络的振动主动控制研究[D];太原理工大学;2012年
6 姜宇;发动机裂解设备故障诊断技术的研究[D];吉林大学;2012年
7 邢远凯;基于决策树和遗传算法的神经网络研究及应用[D];浙江大学;2010年
8 高宝建;基于神经网络的月降水预报模型在洪泽湖的应用研究[D];南京信息工程大学;2012年
9 陈少华;基于Hopfield神经网络控制系统的研究[D];山东科技大学;2010年
10 来建波;基于神经网络的路段行程时间预测研究[D];云南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026