收藏本站
《大连理工大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

企业注册登记文件聚类软件设计与实现

李洋  
【摘要】: 随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用,文本自动聚类对于信息处理具有重要意义。本文完成了一个文本聚类软件的设计与实现,该软件的设计是针对《大连市工商行政管理企业注册登记系统》中注册文件聚类子系统的实际需求产生的。企业注册文件众多,管理起来相当繁重,而文本聚类系统的应用,可以大大减小工作强度,提高工作效率。 文本聚类作为文本挖掘的一个重要方法而倍受关注。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档的内容相似度尽可能大,而不同簇间文档的内容相似度尽可能的小。本论文开发了企业注册文件聚类软件的设计与实现过程。首先,讲述了系统所涉及的相关技术和算法,针对大规模文本集,采用向量空间模型表示文档是可行的。然后,按照需求分析的结果对系统进行了总体设计、各功能的详细设计,包括文本获取设计、分词设计、文本预处理和文本聚类模块的设计。文中重点讲述了聚类K-means算法。利用JAVA语言实现了整个系统。 收集相关文本集测试该系统,通过结果分析得出,K-means算法本身对初始聚类中心的选择的一定的依赖性,但由于K-means算法比较简单、直观、具有易实现性和执行速度快的特点,因而认为系统采用K-menas算法是可行性。最后,对企业注册400个真实文件进行测试,达到了较好的聚类效果。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52

【相似文献】
中国期刊全文数据库 前10条
1 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
2 尉景辉,何丕廉,孙越恒;基于K-Means的文本层次聚类算法研究[J];计算机应用;2005年10期
3 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
4 李刚;史向东;;基于Google搜索结果的重名消解方法[J];信息与电脑(理论版);2011年02期
5 毛嘉莉;;基于K-means的文本聚类算法[J];计算机系统应用;2009年10期
6 刘鑫;张曾杰;李晓城;钱松荣;;主题兴趣度提取方法及其在用户兴趣模型中的应用研究[J];微型电脑应用;2011年03期
7 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
8 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
9 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
10 赵康;陆介平;倪巍伟;王桂平;;一种基于密度的文本聚类挖掘算法[J];计算机应用研究;2009年01期
中国重要会议论文全文数据库 前10条
1 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
7 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年
8 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
10 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国重要报纸全文数据库 前3条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
7 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
8 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
9 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
10 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
2 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
3 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
4 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 王冬;基于语义特征的文本聚类的研究与实现[D];吉林大学;2008年
9 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
10 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026