收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于神经网络等技术的数据与文本聚分类研究

钱晓东  
【摘要】:聚类和分类技术是数据挖掘中最有价值的技术之一,而软计算中的神经网络是聚分类中的主要技术之一。自适应谐振神经网络(Adaptive Resonance Theory:ART)不仅参考人脑神经元互连的物理模型,而且也借鉴人脑的学习机理,具备数据聚类的良好特性,目前国内外研究尚较处于发展阶段。文本挖掘中文本向量集往往表示为正交的高维空间,因而带来计算瓶颈和与实际应用背景不吻合的情况,研究特性良好的降维算法、现有空间的改进等都存在很大的发展余地。 本论文提出了四种基于ART2神经网络的用于数据聚类的改进算法,克服了经典ART2神经网络输出无层次结构的缺点,均可形成动态的层次聚类结果,同时降低了警戒参数主观设置的要求。 基于模、相位、空间密度的改进ART2算法1还克服了经典ART2算法警戒参数全局化、聚类与模无关的缺点,其通过按模和相位的综合评价,依据先前循环形成类别中的输入向量个数分类别修正警戒参数以实现按空间密度局部化警戒参数,在借鉴以前神经网络训练结果的基础上进行聚类; 基于凝聚和迭代思想的改进ART2算法2通过迭代在人工交互下达到合理聚类结果,并计算出合理聚类结果所需的警戒参数范围值;迭代以及迭代中神经网络的输出都体现出有序的自组织特征,网络训练时间代价也在迭代中迅速下降; 基于Hebb规则和泄漏竞争的改进ART2算法3借鉴了Hebb规则和泄漏竞争的思想,允许多个神经元获胜并计算获胜神经元之间的相关性; 基于Hebb规则和冗余神经元思想的改进ART2算法4克服了过分依赖获胜神经元信息等不足,通过在竞争过程中同时考虑获胜神经元和其它神经元的信息以及Hebb规则来实现通过单个ART神经网络的层次聚类结果。 本论文提出了一种基于随机映射的文本降维算法,在可控、低代价地充分逼近原始空间相似度计算结果和分类结果的情况下降低文本向量空间维数。在此基础上本论文还提出了一种基于随机映射的加速隐含语义索引算法,此加速算法将随机映射和隐含语义索引相结合,既可有效可控地降低空间维数,又可凸现语义联系,使得其用于分类算法在文本高维环境中具备实时性和高分类准确率。 此外本论文提出了一种基于模式聚合和各维不同权重的改进KNN文本分类算法,在数据分析的基础上提出优化的模式聚合方法,并利用神经网络计算空间各维不同权重以克服VSM空间各维权重相等的缺点,可以在降低时间和空间复杂度的基础上,提高KNN算法的文本分类准确度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 缪志敏;潘志松;袁伟伟;赵陆文;;一种新的基于SVDD的多类分类算法[J];计算机科学;2009年03期
2 朱清妍;举手表决法在基因分类中的应用[J];长沙航空职业技术学院学报;2005年03期
3 梁志荣;;基于URL聚类的新型web筛选机制研究[J];微计算机信息;2006年21期
4 卜东波,白硕,李国杰;聚类/分类中的粒度原理[J];计算机学报;2002年08期
5 梁晟;;基于SVM和聚类的Internet流识别方法[J];计算机工程与设计;2010年07期
6 吕刚;;基于聚类的多数据库分类算法的研究与实现[J];电脑知识与技术;2008年28期
7 柳朝阳;用聚类回归模型预测粮食产量[J];计算机应用;1988年06期
8 阎辉,张学工,李衍达;基于核函数的最大间隔聚类算法[J];清华大学学报(自然科学版);2002年01期
9 颜雪松,蔡之华;一种快速聚类高维数据的算法研究[J];计算机工程;2003年01期
10 刘志成,文全刚;“K-中心点”聚类算法分析及其实现[J];电脑知识与技术;2005年06期
11 熊家军,涂静,李庆华;入侵检测聚类中相似性度量的等效性研究[J];计算机工程;2005年07期
12 夏咏梅;基于文本挖掘的分类与聚类技术[J];情报探索;2005年03期
13 林树宽;张冬岩;李文贤;张天成;张一飞;;基于聚类和主成分分析的神经网络预测模型[J];小型微型计算机系统;2005年12期
14 陈婷婷;方滨兴;郑军;;基于层次自组织特征映射的网络异常检测系统数据分析器[J];计算机应用与软件;2006年05期
15 陈琦;刘蓉;周茉;罗强;;一种改进的关联规则挖掘算法[J];计算机与数字工程;2006年08期
16 郝伟,徐敏,张瑞林;神经网络聚类方法在旋转机械故障诊断中的应用研究[J];郑州工业大学学报;1995年04期
17 陈金山,韦岗;遗传+模糊C-均值混合聚类算法[J];电子与信息学报;2002年02期
18 李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期
19 王秀娟,侍洪波;应用聚类和模糊神经网络方法设计模糊规则库[J];中南大学学报(自然科学版);2003年04期
20 牟廉明;数据挖掘中聚类方法比较研究[J];内江师范学院学报;2003年02期
中国重要会议论文全文数据库 前10条
1 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
2 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
3 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
5 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
6 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
7 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 高阳;赵瑞娜;赵志强;阿杉;;基于自组织特征映射网络的全国地级市城市地价区域分类研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
10 刘哲;唐雁;陈强;;三维模型有意义分割技术现状及应用[A];2008年计算机应用技术交流会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
2 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
3 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
4 石陆魁;非线性维数约减算法中若干关键问题的研究[D];天津大学;2005年
5 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
6 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
7 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
8 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
9 贾银山;支持向量机算法及其在网络入侵检测中的应用[D];大连海事大学;2004年
10 雷景生;神经网络的分类、聚类功能及其规则抽取研究[D];新疆大学;2003年
中国硕士学位论文全文数据库 前10条
1 黄金;聚类和分类技术在生物信息学中的应用[D];黑龙江大学;2005年
2 张宇;基于数据仓库的可视化数据挖掘系统的设计与实现[D];中国地质大学(北京);2007年
3 董军凯;基于平行坐标法的可视化数据挖掘技术研究[D];北京工业大学;2008年
4 张晨希;数据挖掘技术在股票预测中的应用[D];安徽大学;2006年
5 易珺;基于数据挖掘的酒店CRM客户获取的研究[D];广东工业大学;2005年
6 丁健;传感器网络中的数据挖掘[D];黑龙江大学;2005年
7 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
8 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年
9 刘晓燕;基于聚类的入侵检测系统研究[D];青岛大学;2006年
10 于世东;多维数据可视化技术的研究及应用[D];沈阳工业大学;2006年
中国重要报纸全文数据库 前10条
1 ;SecuiWALL独创分类算法[N];计算机世界;2002年
2 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
3 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
4 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
5 俞路石;中科大研究生解决网络数据包有效分类算法[N];中国教育报;2007年
6 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
7 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
8 符信;30个指标评价社会发展水平[N];南方日报;2005年
9 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
10 ;锐捷RG-WALL系列防火墙[N];电脑商报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978