文本挖掘若干关键技术研究
【摘要】:面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的研究领域。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此对非结构化信息进行挖掘成为继数据挖掘之后出现的又一课题。
在常见的非结构化数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因而比数据挖掘具有更高的商业价值。
本文以文本数据为研究对象,对文本挖掘的若干关键技术进行研究,主要包括文本特征提取和特征选择、文本关联分析、文本关联分类,并提出更有效的文本挖掘算法。本文的研究工作和创新内容包括以下几个方面:
(1)利用最小词频阈值的文档频特征评估函数减少噪声特征的比例,提高文本分类的质量。
目前,文本特征选择普遍采用特征评估函数的方法,各种评估函数根据其使用的是词频还是文挡频有所不同。我们针对噪声特征的词频普遍较低的特点,提出利用最小词频阈值的文档频方法进行特征选择。分别对互信息、信息增益、x~2统计三种特征评估函数采用该方法进行实验,结果表明最小词频阈值有效地减少特征集中噪声特征所占的比例,并且发现随着阈值的提高不同评估函数得到的特征集趋于一致。
(2)针对文本关联分析中难以确定最小支持度阈值的问题,提出N个最频繁项集挖掘算法。
在文本关联分析中,频繁项集挖掘是重要的环节,但在频繁项集挖掘过程中,用户难以定义合适的最小支持度阈值这一问题始终存在。本文提出基于最小支持度阈值动态调整策略的N个最频繁项集挖掘算法,算法通过指定需要产生的频繁项集的数量N来控制频繁项集的规模。挖掘过程中,不断根据已有结果调高最小支持度阈值,从而达到降低搜索空间、改善挖掘性能的目的。根据这一策略分别提出类Apriori算法和基于倒排矩阵的IntvMatrix算法挖掘前N个频繁项集。
|
|
|
|
1 |
;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期 |
2 |
赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期 |
3 |
崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期 |
4 |
胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期 |
5 |
渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期 |
6 |
苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期 |
7 |
付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期 |
8 |
曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期 |
9 |
韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期 |
10 |
胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期 |
11 |
刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期 |
12 |
吕冬煜,党齐民;基于文本挖掘的可视化竞争情报提取[J];计算机应用与软件;2005年02期 |
13 |
李文炬;文本挖掘技术在农业科技基础数据库中应用的探讨[J];农业网络信息;2005年11期 |
14 |
张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期 |
15 |
王珍珍;;关于文本挖掘中文本分类与文本聚类的研究[J];科技信息;2007年06期 |
16 |
李翠霞;林楠;;浅析文本挖掘技术[J];科技信息;2007年10期 |
17 |
李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期 |
18 |
孙玉娣;裴勇;;基于可视化文本挖掘的本体构建[J];情报杂志;2007年12期 |
19 |
蔡坤;姜保庆;;关于文本挖掘中文本聚类算法的研究[J];福建电脑;2009年04期 |
20 |
魏程;刘鲁;翟铭;;一种四维向量空间模型的Web新闻文本分类方法[J];微计算机应用;2010年03期 |
|