收藏本站
《湘潭大学》 2002年 硕士论文
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本数据挖掘研究

杨斌  
【摘要】: 随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于争议的研究方向。国内中文文本挖掘(CTM, Chinese Text Mining)的研究刚刚开始,面向中文语料的文本挖掘目前还没有像样的系统,还存在许多问题亟待解决。文中,我们对此进行了研究。 首先,我们从理论上对文本挖掘进行了探讨。我们在数据挖掘概念的基础上进行扩展,给出了文本挖掘的定义,通过分析其特点,描述了中文文本挖掘的处理过程,继而从功能上对文本挖掘进行分类,这样便能从整体上理解文本挖掘。 其次,通过分析现有的文本分类技术,从文本挖掘的角度研究了中文文本的分类问题,包括中文的分词、特征提取、特征匹配等问题,设计了文本分类系统(STCS)。 然后,我们将传统的关联规则引入文本领域,给出了文本关联规则的定义,文本关联查询语言及其范式表示,在Aprior算法和IMAARC算法基础上提出了文本关联规则开采算法MATA。 最后,我们论述了文本挖掘的2个应用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 谢嫚;;人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例[J];现代情报;2010年06期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978