收藏本站
《湘潭大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本数据挖掘研究

杨斌  
【摘要】: 随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于争议的研究方向。国内中文文本挖掘(CTM, Chinese Text Mining)的研究刚刚开始,面向中文语料的文本挖掘目前还没有像样的系统,还存在许多问题亟待解决。文中,我们对此进行了研究。 首先,我们从理论上对文本挖掘进行了探讨。我们在数据挖掘概念的基础上进行扩展,给出了文本挖掘的定义,通过分析其特点,描述了中文文本挖掘的处理过程,继而从功能上对文本挖掘进行分类,这样便能从整体上理解文本挖掘。 其次,通过分析现有的文本分类技术,从文本挖掘的角度研究了中文文本的分类问题,包括中文的分词、特征提取、特征匹配等问题,设计了文本分类系统(STCS)。 然后,我们将传统的关联规则引入文本领域,给出了文本关联规则的定义,文本关联查询语言及其范式表示,在Aprior算法和IMAARC算法基础上提出了文本关联规则开采算法MATA。 最后,我们论述了文本挖掘的2个应用。
【学位授予单位】:湘潭大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP311.12

【相似文献】
中国期刊全文数据库 前10条
1 张海粟;马大明;邓智龙;;基于维基百科的语义知识库及其构建方法研究[J];计算机应用研究;2011年08期
2 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
3 史伟;王洪伟;;在线产品评论检索系统研究[J];情报杂志;2011年09期
4 杜芳芳;;数据挖掘技术在远程教学辅助系统中的应用研究[J];河南科技;2011年12期
5 李向东;刘晓斌;武利平;常洪梅;;面向路线图编制的模糊均值文本聚类挖掘方法研究[J];河北工业大学学报;2011年03期
6 吴梦兰;;WEB内容推荐算法在远程教育中的应用[J];电脑知识与技术;2011年26期
7 黄瑾娉;苏庭波;;一种产品评论信息的意见挖掘技术研究[J];工业控制计算机;2011年06期
8 陈阳;凌俊民;蒙圣光;;投诉数据智能挖掘分类管理系统[J];数字技术与应用;2011年06期
9 刘桂锋;王秀红;;Aureka专利分析工具的文献计量分析[J];现代情报;2011年07期
10 张萍;徐红;李晓霞;;基于互联网的人力资源信息系统的研究与实现[J];福建电脑;2011年07期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
5 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
7 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 樊延平;马亚龙;袁野;;军事想定数据挖掘技术研究[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
10 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
9 本报记者 张承东;挖潜无极限[N];网络世界;2006年
10 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
6 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
7 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
8 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
9 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
10 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
2 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
3 薛浩;基于SOM聚类的WEB文本挖掘及其结果的可视化研究[D];南京航空航天大学;2010年
4 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
5 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
6 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
7 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
8 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
9 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
10 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026