收藏本站
《西安电子科技大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SOM的文本聚类及其在搜索结果中的应用

徐仰彬  
【摘要】: 随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中,对于文本聚类的研究己经引起了广泛的重视,并取得了良好的成果。 本文首先对数据挖掘流程以及数据挖掘分类和各自的研究现状及发展进行了概括的介绍;然后结合汉语自身的相关特点详细的分析了中文文本自动聚类中所涉及到的关键问题及其技术;接着介绍了人工神经网络技术的发展的现状和特点及其在聚类中的应用。 人工神经网络由大量简单的基本元件-神经元相互联结,模拟人的大脑神经处理信息的方式,进行信息并行处理和非线性转换的复杂网络系统。本文将人工神经网络技术和文本挖掘技术结合,并应用于搜索引擎中的结果分析中。在此基础上提出了基于SOM神经网络的文本挖掘模型。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.13

【引证文献】
中国博士学位论文全文数据库 前1条
1 孙砚飞;基于光纤光栅传感的桥梁损伤识别与评估系统研究[D];武汉理工大学;2008年
中国硕士学位论文全文数据库 前2条
1 刘忠辉;综合负荷模型参数辨识及负荷特性分类综合方法研究[D];山东大学;2011年
2 张梦笑;基于LDA模型的观点聚类研究[D];山西大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 武胜良;;数据挖掘中模糊聚类方法在信息检索中的应用[J];当代经理人;2006年15期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术;2006年14期
4 肖旻;;一种基于向量空间模型的邮件自动过滤算法研究[J];福建电脑;2006年08期
5 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
6 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
7 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
8 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
9 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
10 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
4 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
5 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
6 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
7 刘海军;赵妍;马萍;田伟;;SOM-BP神经网络在食品机械机构优化设计中的应用[J];北京工商大学学报(自然科学版);2009年06期
8 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
9 刘茂;;一种基于模糊神经网的超短波信号自动识别算法[J];成都信息工程学院学报;2007年05期
10 肖红;刘淑华;;一种文本多级分类方法研究[J];长江大学学报(自然科学版)理工卷;2008年02期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
3 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 王建民;陈佳鹏;由芳;丁卫彬;;嵌入式电子词典快速查询模型的研究与设计[A];第四届和谐人机环境联合学术会议论文集[C];2008年
6 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
7 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
8 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
9 张莹莹;段翔;周彬;王晓云;;移动通信网络中的内容安全[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
10 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
4 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
5 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
8 王利;冷轧全流程生产计划与动态调度方法的研究与应用[D];大连理工大学;2011年
9 王娜;基于数据挖掘技术的肺癌早期预警模型研究[D];郑州大学;2012年
10 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前10条
1 吴俊;基于神经网络的电力负荷数据清洗模型研究[D];大连理工大学;2010年
2 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
4 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
7 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
8 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
9 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
10 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 于小宁,孙成城,张勤;简支梁调谐光纤光栅波长的改进算法[J];半导体光电;2004年02期
2 李新延,李德仁;DBSCAN空间聚类算法及其在城市规划中的应用[J];测绘科学;2005年03期
3 苏盛,李欣然,陈元新,李茂军,张文磊,唐外文,徐宇新;电力负荷特性记录装置的开发与应用[J];长沙电力学院学报(自然科学版);2002年01期
4 王振树;李林川;牛丽;;基于贝叶斯证据框架的支持向量机负荷建模[J];电工技术学报;2009年08期
5 周文,葛斐,贺仁睦;软件工程化的负荷特性记录系统开发[J];电力系统自动化;1999年16期
6 鞠平;电力系统负荷建模理论与实践[J];电力系统自动化;1999年19期
7 段献忠,包黎昕;电力系统电压稳定分析和动态负荷建模[J];电力系统自动化;1999年19期
8 鞠平,赵夏阳,李东辉;电力负荷模型可辨识性分析方法[J];电力系统自动化;1999年19期
9 鞠平,潘学萍,韩敬东;3种感应电动机综合负荷模型的比较[J];电力系统自动化;1999年19期
10 唐巍,郭镇明,李殿璞;混沌优化用于电力系统静态负荷模型参数辨识[J];电力系统自动化;2000年13期
中国博士学位论文全文数据库 前8条
1 宋雨;文晖大桥健康监测与评估管理系统主要问题研究[D];浙江大学;2003年
2 石景海;考虑负荷时变性的大区电网负荷建模研究[D];华北电力大学(北京);2004年
3 吴大宏;基于遗传算法与神经网络的桥梁结构健康监测系统研究[D];西南交通大学;2003年
4 邹大力;基于计算智能的结构损伤识别研究[D];大连理工大学;2006年
5 宋华珠;基于独立分量分析的结构损伤识别研究[D];武汉理工大学;2006年
6 黄天立;结构系统和损伤识别的若干方法研究[D];同济大学;2007年
7 刘胜春;光纤光栅智能材料与桥梁健康监测系统研究[D];武汉理工大学;2006年
8 田野;粒子群优化算法及其应用研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前9条
1 刘建民;公路混凝土桥梁损伤评估技术研究[D];郑州大学;2003年
2 任更锋;大跨径PC连续刚构桥神经网络控制系统的研究[D];长安大学;2003年
3 黄丽娟;动态聚类新方法及最优聚类算法研究[D];扬州大学;2006年
4 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
5 马学知;基于虚拟仪器的齿轮故障测试系统[D];湖南大学;2007年
6 王玉伟;面向用户兴趣的web文档聚类研究[D];中国石油大学;2008年
7 郭建永;聚类分析在文本挖掘中的应用与研究[D];江南大学;2008年
8 齐志;基于SOM神经网络的聚类可视化方法研究[D];东北师范大学;2009年
9 高娟;基于K-means算法的文本聚类的研究与实现[D];江西理工大学;2010年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 胡军;荆岳大桥结构健康监测系统研究及应用[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前6条
1 尹骏晖;基于模态分析理论和改进BP神经网络的桥梁损伤识别方法研究[D];河北工业大学;2011年
2 何进飞;大型浮吊臂架光纤光栅实时监测系统研究[D];武汉理工大学;2010年
3 刘建华;负荷特性聚类和模型辨识研究[D];长沙理工大学;2012年
4 孟凡尧;基于SOM和小波变换数据挖掘的负荷建模平台数据库[D];山东大学;2012年
5 刘洋;基于QPSO算法的综合负荷模型参数辨识与负荷建模平台[D];山东大学;2012年
6 潘实;基于虚拟仪器技术的多通道试验模态分析系统研究[D];中南大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
2 林华兵,傅清祥;基于文本相似度的关键词分类算法[J];福建电脑;2005年08期
3 杨鹏,叶少珍;基于关键词和语义融合的WEB检索[J];福建电脑;2005年08期
4 王珊;吴鸥琦;;B~+树效率分析和组织聚集索引的算法——B~+树的进一步研究和应用[J];计算机研究与发展;1982年11期
5 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
7 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
8 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
9 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
10 刁倩,张惠惠,王永成;Internet上的英文搜索引擎[J];计算机工程;1999年07期
中国博士学位论文全文数据库 前1条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 杨俊;廖闻剑;彭艳兵;;一种中文文本聚类算法的研究[J];硅谷;2009年05期
2 张骏;郭慧;;基于文件指纹的Web文本挖掘[J];计算机与信息技术;2009年05期
3 刘彦保;王文发;王文东;;基于聚类分析策略的Web文本挖掘方法[J];延安大学学报(自然科学版);2007年04期
4 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
5 万红新;彭云;;模糊策略下的搜索文本聚类分析技术[J];计算机工程与应用;2009年33期
6 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
7 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
8 朱大虎;;关于提高web信息检索系统服务水平的探索[J];齐齐哈尔师范高等专科学校学报;2011年02期
9 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
10 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
中国重要会议论文全文数据库 前10条
1 张忠林;彭桂峰;田卫东;谭学林;;杂草稻种质资源农艺性状的主成分及聚类分析[A];云南省作物学会2000—2003年优秀论文选集[C];2004年
2 赖俊峰;彭秀云;;用多元统计对学生知识结构的分析[A];全国高师会数学教育研究会2006年学术年会论文集[C];2006年
3 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
4 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
5 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
6 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
7 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
8 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
9 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
4 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
5 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
6 清华大学 王俊艳;年龄变化的人脸识别[N];计算机世界;2006年
7 汪洋 编译;BI平民化[N];计算机世界;2004年
8 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
9 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
10 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
3 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
4 曹锋;数据流聚类分析算法[D];复旦大学;2006年
5 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
6 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
7 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
8 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
9 龚世才;图的特征向量的组合结构[D];安徽大学;2010年
10 戴维迪;非监督知识发现过程中若干关键问题研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 谭颖;文本挖掘中的聚类算法研究[D];吉林大学;2009年
2 徐仰彬;基于SOM的文本聚类及其在搜索结果中的应用[D];西安电子科技大学;2007年
3 张永鹏;基于核函数和自定类别数目的文本聚类问题研究[D];哈尔滨理工大学;2008年
4 李伯阳;文本聚类方法研究及其应用[D];厦门大学;2008年
5 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
6 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
7 杨占华;聚类分析研究及其在文本挖掘中的应用[D];西南交通大学;2006年
8 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
9 闫雷;急性白血病相关基因的文本挖掘分析[D];中国医科大学;2006年
10 蔡坤;基于特征词的文本聚类算法研究[D];河南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026