收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于人工免疫算法的Web文本挖掘研究

尹丽玲  
【摘要】: 随着上世纪90年代初信息化社会的到来,网络已经变得越来越普及,它已经成为了人们获取各类数据的有效手段和方法。那么如何从海量的文本数据中找到人们所需的信息就成为了亟待解决的问题。文本挖掘研究由此应运而生。文本聚类是文本挖掘领域中一个重要分支,研究它有着重要而深远的意义。 本文先是通过结合了改进的人工免疫算法去解决K-Means算法初始聚类中心敏感的问题,使得其聚类中心更加的合理以便得到更优的聚类结果。这是第一个阶段,目的是得到优化的初始聚类中心。第二阶段利用了De Castro于2002年提出的aiNet网络模型对已经具有相对优化的中心的Web文本进行聚类。 本文首先阐述了Web文本聚类的国内外研究现状和现存的问题,然后介绍了文本聚类的相关过程,从预处理,文本模型表示,到常用的聚类算法,并对这些聚类算法的优缺点进行了评析。文中分析了传统人工免疫算法存在的问题,提出最佳策略对三个人工免疫遗传算子进行改造来加快算法的收敛速度,保证后代的最优性。最后改进了用于聚类的aiNet网络模型中亲和度的计算方法,对变异过程进行了部分控制,克服了其用于度量高维文本聚类相似度不精准的缺点。 实验结果表明,本文中改进的算法有较好的动态适应性,并且改善了聚类的质量。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

免费申请
【引证文献】
中国硕士学位论文全文数据库 前2条
1 李超;基于免疫的网络入侵检测系统研究[D];河北科技大学;2012年
2 李方源;基于电阻距离的中文文本谱聚类算法研究[D];华南理工大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 郑德玲,梁瑞鑫,付冬梅,李晓刚,方彤;人工免疫系统及人工免疫遗传算法在优化中的应用[J];北京科技大学学报;2003年03期
2 黄明,王武龙,梁旭;基于遗传算法的高效聚类挖掘新算法[J];大连铁道学院学报;2002年04期
3 赵晓静;;Web文本挖掘综述[J];电脑学习;2008年05期
4 何中市;徐浙君;;一种新型的文本无监督特征选择方法[J];重庆大学学报(自然科学版);2007年06期
5 吕强,俞金寿;基于混合遗传算法的K-Means最优聚类算法[J];华东理工大学学报(自然科学版);2005年02期
6 郭建华;邓飞其;杨海东;;基于目标进化的aiNet聚类算法[J];华南理工大学学报(自然科学版);2009年04期
7 孟海东;张玉英;;基于密度和对象方向聚类算法的改进[J];计算机工程与应用;2006年20期
8 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
9 张伟;廖晓峰;吴中福;;一种基于遗传算法的聚类新方法[J];计算机科学;2002年06期
10 傅景广,许刚,王裕国;基于遗传算法的聚类分析[J];计算机工程;2004年04期
中国博士学位论文全文数据库 前2条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前3条
1 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
2 苏芳仲;中文Web文本挖掘的若干关键技术研究及其实现[D];福州大学;2006年
3 孙秀娟;基于遗传算法的K-means聚类算法分析研究[D];山东师范大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 黄险峰;;按隔声要求的组合墙体各构件面积反演[J];四川建筑科学研究;2008年03期
2 邓建斌;叶洪江;;基于混沌遗传算法的配电网无功补偿优化[J];安徽电气工程职业技术学院学报;2006年03期
3 乔志杰;程翠翠;;基于遗传算法优化的模糊PID控制研究及其仿真[J];安徽电气工程职业技术学院学报;2009年03期
4 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
5 安振刚,李谋渭,尹显东,于宁,唐伟;遗传神经网络在平整轧制力预报中的应用[J];鞍钢技术;2001年06期
6 鱼静,戴宗友;一种基于免疫原理的入侵检测系统模型[J];安徽电子信息职业技术学院学报;2004年Z1期
7 尹峰,邓小鹏,许四毛;生物免疫机理在计算机安全领域的应用与发展[J];安徽电子信息职业技术学院学报;2004年Z1期
8 华文立;胡学刚;;平衡决策树分类精度与规则简易性研究[J];安徽电子信息职业技术学院学报;2006年04期
9 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
10 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
中国重要会议论文全文数据库 前10条
1 齐继阳;竺长安;曾议;;基于遗传禁忌混合搜索算法的设备布局研究[A];2004“安徽制造业发展”博士科技论坛论文集[C];2004年
2 丁婷;崔红涛;;遗传算法在智能天线扇区波束赋形及阵元失效补偿中的应用[A];经济策论(上)[C];2011年
3 ;Novel Hybrid Clustering Algorithm Incorporating Artificial Immunity into Fuzzy Kernel Clustering for Pattern Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
5 程远林;李茂军;;基于小生境遗传算法的配电网电容器优化配置[A];第二十六届中国控制会议论文集[C];2007年
6 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
7 张志华;王莉;刘洪;;最大化网络广告收入的投放决策[A];第二十六届中国控制会议论文集[C];2007年
8 赵瑞艳;李树荣;张晓东;苗荣;;基于混合遗传算法的热传导系统最优控制问题求解[A];第二十七届中国控制会议论文集[C];2008年
9 王清;宋年年;王佳庆;姚菁;;优化自抗扰控制器在主汽温控制系统中的应用[A];第二十七届中国控制会议论文集[C];2008年
10 康忠健;徐丽;勾松波;金华蓉;李瑞生;;考虑分布电容的神经网络单相接地故障测距算法[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 李佳;载人潜器阻力性能的数值和试验预报及外形优化研究[D];哈尔滨工程大学;2010年
2 张亚娟;适应性企业战略协同机制研究[D];哈尔滨工程大学;2010年
3 谭枫;介入式文化算法及其应用研究[D];哈尔滨工程大学;2010年
4 陆满君;通信辐射源个体识别与参数估计[D];哈尔滨工程大学;2010年
5 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
6 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
7 李晚龙;六自由度Stewart平台分散智能控制研究[D];哈尔滨工程大学;2010年
8 董慧群;代建制项目风险预警管理研究[D];辽宁工程技术大学;2010年
9 许爱德;开关磁阻电机在船舶电力推进中的应用研究[D];大连海事大学;2010年
10 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
中国硕士学位论文全文数据库 前10条
1 万成;动态环境下的元胞遗传算法研究[D];南昌航空大学;2010年
2 李坤;参数参与进化的自适应遗传算法研究[D];南昌航空大学;2010年
3 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
4 马水松;多目标遗传算法与非支配集的构造研究[D];山东科技大学;2010年
5 李臻;城市公交车辆智能调度优化研究[D];山东科技大学;2010年
6 朱国凯;泰安市农村公路典型路面结构研究[D];山东科技大学;2010年
7 纪二云;基于改进遗传算法的电力系统无功优化的研究[D];山东科技大学;2010年
8 汤雪;时间序列线性表示方法及其相似性度量算法研究[D];山东科技大学;2010年
9 施晓坤;煤炭企业人才结构优化[D];山东科技大学;2010年
10 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 俞正方;;电信IP承载网安全防御[J];信息安全与技术;2010年08期
2 于素梅;;浅谈集团公司应用系统的安全管理[J];信息安全与技术;2011年Z1期
3 姜千;胡亮;赵阔;努尔布力;王程明;;入侵检测系统评估技术研究[J];吉林大学学报(信息科学版);2009年04期
4 程永新;许家珆;陈科;;一种新型入侵检测模型及其检测器生成算法[J];电子科技大学学报;2006年02期
5 王益丰,李涛,胡晓勤,宋程;一种基于人工免疫的网络安全实时风险检测方法[J];电子学报;2005年05期
6 杜海峰,焦李成,刘若辰;免疫优势克隆算法[J];电子与信息学报;2004年12期
7 姚君兰;;入侵检测技术及其发展趋势[J];信息技术;2006年04期
8 刘辉;张凤斌;;一种改进的基于否定选择的检测器生成算法[J];哈尔滨理工大学学报;2008年04期
9 郭建华;邓飞其;杨海东;;基于目标进化的aiNet聚类算法[J];华南理工大学学报(自然科学版);2009年04期
10 丁冠华;闫军;王晓然;;基于人工免疫的入侵检测系统[J];计算机与信息技术;2006年07期
中国博士学位论文全文数据库 前1条
1 汪楚娇;语义环境下提升机故障人工免疫诊断方法研究[D];中国矿业大学;2010年
中国硕士学位论文全文数据库 前10条
1 李小刚;教学网络的分布式入侵检测系统的研究与应用[D];郑州大学;2010年
2 倪国涛;专网安全策略的设计与实现[D];哈尔滨工程大学;2010年
3 沈洋;三网融合环境中的信息安全技术研究[D];大连海事大学;2010年
4 刘自丽;基于改进免疫算法的弹性参数反演[D];中国海洋大学;2010年
5 王悦;网络安全监控系统的研究与实现[D];中国海洋大学;2009年
6 李强;入侵检测系统运行安全度量研究[D];解放军信息工程大学;2010年
7 耿志刚;入侵检测的研究与实现[D];北京工业大学;2003年
8 杨晓彦;网络安全漏洞信息系统的研究[D];西安电子科技大学;2007年
9 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
10 刘巧凤;基于图结构的中文文本聚类方法研究[D];大连理工大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
2 梁瑞鑫,郑德玲;基于区间套混沌搜索的混合优化方法[J];北京科技大学学报;2002年03期
3 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
4 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
5 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
6 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
7 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
8 李磊,乔智勇;挖掘Web数据[J];电子科技;2001年19期
9 王磊,潘进,焦李成;免疫算法[J];电子学报;2000年07期
10 刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期
中国重要会议论文全文数据库 前1条
1 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前1条
1 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 樊建聪;使用贝叶斯方法的数据挖掘及应用研究[D];山东科技大学;2003年
4 肖红;基于web的中文文本挖掘研究[D];大庆石油学院;2004年
5 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
6 费爱蓉;基于贝叶斯方法的Web服务分类的研究[D];合肥工业大学;2004年
7 龚涛;多维教育免疫艾真体的研究[D];中南大学;2003年
8 靳小波;基于机器学习算法的文本分类系统[D];西北工业大学;2005年
9 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
10 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 陈朵玲,胡肖锋;基于Web文本挖掘技术的企业竞争情报系统研究[J];情报杂志;2005年06期
2 孙铁利;王圆;;一个基于人工神经网络的Web文本过滤系统[J];计算机时代;2006年06期
3 李光敏;许新山;熊旭辉;;Web文本情感分析研究综述[J];现代情报;2014年05期
4 刘明吉;饶一梅;王秀峰;黄亚楼;;基于模糊近似度的Web文本过滤模型[J];计算机科学;2001年12期
5 王序臻;;Web文本层次分类方法研究[J];温州职业技术学院学报;2008年03期
6 邹志华;田生伟;禹龙;冯冠军;;改进的维吾尔语Web文本后缀树聚类[J];中文信息学报;2013年02期
7 王景中;郭兆亮;;基于分层的中文Web文本内容过滤研究[J];网络安全技术与应用;2012年11期
8 曹建芳;王鸿斌;;一种新的基于SVM-KNN的Web文本分类算法[J];计算机与数字工程;2010年04期
9 李泽峰;王煜;;基于RBF神经网络和关联规则的Web文本分类规则获取方法[J];图书情报工作;2006年10期
10 王健;韩广琳;;基于统计的Web文本自动摘要技术分析[J];福建电脑;2007年08期
中国重要会议论文全文数据库 前3条
1 刘斓冰;魏桂英;;Web文本信息挖掘技术[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
2 于海燕;陈晓江;冯健;房鼎益;;Web文本内容过滤方法的研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前1条
1 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前8条
1 于帅;中文Web文本情感倾向性分析技术的研究[D];哈尔滨工程大学;2013年
2 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
3 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
4 邓琨;基于Rough集的Web文本分类及其信息抽取研究[D];南昌大学;2007年
5 桂海霞;利用表格等信息的Web文本分类研究与实现[D];安徽理工大学;2008年
6 张谌奇;支持向量机在Web文本分类中的分析与应用[D];暨南大学;2008年
7 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
8 张宏兵;Web文本挖掘技术在网页推荐中的应用研究[D];南京理工大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026