收藏本站
《上海海事大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于后缀树的中文文本聚类算法研究

芦立华  
【摘要】:文本挖掘是指在大量文本集合上发现隐含的、有趣的、有用的模式和知识。文本挖掘技术的出现,使得计算机处理大规模文本资源成为可能,对文本的处理,在信息检索等领域有着广阔的应用前景。 本文研究基于后缀树的中文文本聚类。文本聚类是文本挖掘重要手段和研究分支。后缀树作为一种数据结构,最早是为支持有效的字符串匹配和查询而提出的,例如:寻找最长的重复子串,相似串的匹配,串比较等问题。后缀树聚类(STC)方法的一个突出的特点是将文本看作短语串而非词的集合,这样可以更充分地使用词语之间的近似信息,达到更佳的聚类结果。STC已经在英文文本聚类中有了一些成功的应用,本文针对中文文本的特点,尝试将这种方法应用到中文文本聚类上。 本文对数据挖掘尤其是中文文本聚类及相关理论与技术进行了研究,主要包括以下内容: (1) 对文本聚类算法进行了研究,特别是k-平均算法及其在中文文本中的应用。 (2) 针对中文文本组成上的特点,研究了中文文本聚类的模型。 (3) 研究并验证了后缀树技术在中文文本聚类这一特定领域应用的可行性。 (4) 设计并实现了一个小型的中文文本聚类系统,可以进行k-平均和STC聚类。 (5) 通过几组中文文本数掘集对k-平均和STC两种聚类算法进行了实验和比较,得出了一些有用的结果,并从理论上作了进一步的说明和论证。同时,对试验中出现的问题进行了探讨,并提出了进一步研究的方向。
【学位授予单位】:上海海事大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前5条
1 雷申;结构化P2P网络中基于兴趣的搜索机制研究[D];山东师范大学;2012年
2 赵旭东;互联网舆情指数挖掘方法研究[D];哈尔滨工业大学;2007年
3 郭建永;聚类分析在文本挖掘中的应用与研究[D];江南大学;2008年
4 冯冰洁;后缀树算法在元搜索引擎中的应用[D];暨南大学;2010年
5 荣元媛;改进后缀树的中文检索结果聚类系统[D];北京林业大学;2013年
【参考文献】
中国期刊全文数据库 前5条
1 梅馨,邢桂芬;文本挖掘技术综述[J];江苏大学学报(自然科学版);2003年05期
2 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
3 陈福集,杨善林;一种基于SOM的中文Web文档层次聚类方法[J];情报学报;2002年02期
4 宋擒豹,沈钧毅;基于关联规则的Web文档聚类算法[J];软件学报;2002年03期
5 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
【共引文献】
中国期刊全文数据库 前10条
1 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
2 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
3 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期
4 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期
5 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
6 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期
7 李家兵;;基于交叉覆盖算法的文本分类研究[J];滁州学院学报;2008年05期
8 李楠;杨彬彬;;决策树ID3分类算法在文本分类中的应用研究[J];大连大学学报;2009年06期
9 孙铁利;赵隽;杨凤芹;吴迪;;一种基于相对特征的文本分类算法[J];东北师大学报(自然科学版);2010年01期
10 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
5 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
7 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
8 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
9 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
2 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
3 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
4 王骏;无监督学习中聚类和阈值分割新方法研究[D];南京理工大学;2011年
5 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
6 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
7 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
8 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
9 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
10 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
2 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
4 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
5 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
6 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
7 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
8 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
9 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
10 姜国新;支持多语言标签优先的元搜索引擎结果聚类研究[D];浙江工商大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张辉;谢科;庞斌;吴辉;;一种基于关键特征的搜索引擎结果聚类算法[J];北京航空航天大学学报;2007年06期
2 刘文婷;滕奇志;;后缀树聚类在专用搜索引擎中的应用研究与改进[J];成都信息工程学院学报;2010年03期
3 李向伟;仇德成;;数据挖掘技术在Web中的应用研究[J];电脑知识与技术;2006年02期
4 单红花;;web数据挖掘探讨[J];电脑知识与技术;2006年02期
5 杨文涛,易志雄,刘卫忠,邹雪城,周国学;P2P网络流媒体播放系统研究[J];电视技术;2005年06期
6 刘岭峰;;Vivísimo元搜索引擎技术特征[J];广东教育学院学报;2008年03期
7 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
8 张刚;刘悦;郭嘉丰;程学旗;;一种层次化的检索结果聚类方法[J];计算机研究与发展;2008年03期
9 陈毅恒;秦兵;刘挺;王平;李生;;基于潜在语义索引和自组织映射网的检索结果聚类方法[J];计算机研究与发展;2009年07期
10 黄道颖,李祖鹏,庄雷,黄建华,张安琳;分布式Peer-to-Peer网络Gnutella模型研究[J];计算机工程与应用;2003年05期
中国博士学位论文全文数据库 前6条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
4 吴宇;对等网络内容搜索及索引缓存研究[D];中国科学院研究生院(计算技术研究所);2006年
5 黄庆凤;结构化P2P网络性能分析与搜索算法研究[D];华中科技大学;2008年
6 喻梅;基于P2P系统的分布式查询算法的研究[D];天津大学;2008年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
3 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
4 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
5 陈婷婷;基于数据流的网络流量突发异常检测[D];哈尔滨工业大学;2006年
6 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
7 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
8 王艳芬;基于本体技术的元搜索引擎XXYJ系统的设计与实现[D];苏州大学;2007年
9 王琼;元搜索引擎结果聚类优化的研究与实现[D];苏州大学;2008年
10 马飞;数据挖掘中的聚类算法研究[D];南京理工大学;2008年
【二级引证文献】
中国期刊全文数据库 前4条
1 王青;成颖;巢乃鹏;;网络舆情监测及预警指标体系研究综述[J];情报科学;2011年07期
2 胡琼芳;曾建勋;;基于多共现的文献相关度判定研究[J];情报理论与实践;2010年08期
3 曹树金;郑凌;陈忆金;;网络舆情突发异常识别及关键算法研究[J];图书情报知识;2012年01期
4 娄建玮;;高职院校学生网络舆情分析系统的研究[J];潍坊学院学报;2011年02期
中国硕士学位论文全文数据库 前10条
1 曾奉尧;基于社会网络的网络舆情挖掘技术与研究[D];电子科技大学;2011年
2 刘旭;基于互联网数据的话题发现及追踪技术研究与实现[D];复旦大学;2010年
3 罗引;互联网舆情发现与观点挖掘技术研究[D];电子科技大学;2010年
4 李波;基于网络舆情监测的高校思想政治教育研究[D];中北大学;2010年
5 王瑷珲;留学生对中国文化知识的态度与需求[D];北京大学;2012年
6 张梦笑;基于LDA模型的观点聚类研究[D];山西大学;2012年
7 董亚倩;高校网络舆情演变规律及安全评估指标体系构建研究[D];山东理工大学;2012年
8 刘松显;网页自动分类算法的设计与实现[D];南昌大学;2012年
9 王金艳;基于知识地图的应急决策专家隐性知识可视化[D];燕山大学;2012年
10 郑海燕;关系数据库对象级别检索结果的聚类展现方法研究[D];大连海事大学;2013年
【二级参考文献】
中国期刊全文数据库 前7条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
4 邢桂芬;ERP与CRM一体化结构中数据实时通讯的研究[J];江苏大学学报(自然科学版);2002年06期
5 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
6 宋擒豹,沈钧毅;基于关联规则的Web文档聚类算法[J];软件学报;2002年03期
7 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
【相似文献】
中国期刊全文数据库 前1条
1 耿玉良,陈家琪,王咏梅;中文Web检索中聚类算法的改进[J];计算机工程与设计;2005年10期
中国硕士学位论文全文数据库 前1条
1 贾永娟;基于密度的改进K-Means文本聚类算法研究[D];山西师范大学;2014年
中国知网广告投放
相关机构
>山西师范大学
相关作者
>贾永娟
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026