基于粗糙集理论的知识发现在web文本挖掘上的应用研究
【摘要】:
本文提出了一种基于粗糙集理论的web文本分类模型,该模型从已分类的训练文本出发,建立一系列不同层次的文本分类子系统,利用Rough Set理论有效处理不精确、不确定、含糊信息的特性,对分类决策表进行属性约简,既有效降低了web文本的维度,又保持关键词集合中的信息。最后,推导出web文本分类的规则集。
有别于传统的对关键字频度进行累加的方法,本文提出了基于信息熵的文本关键词测度函数,通过对关键词函数值进行比较,获取对文本分类最具影响性的关键词序列;同时,针对Web上异质、非结构化信息的特点,该分类算法还考虑了超文本标记对关键词权值的影响。
为获取本文项目实验材料,以配合IR(Information retrieval)和IF(information filter)做仿真实验,我们编制了Web文本收集模型WebCrawler,该模型利用目前较流行的 Hits算法解析网络链接结构,从Internet上收集相关的web文本。
基于对所获实验材料的web文本分类实验,本文实现了相关的web文本挖掘算法,对提出的算法进行了实验分析。从实验结果看,基于粗糙集的web文本分类算法无论在分类精度、分类效率,还是知识的新颖程度方面,都比以往分类算法有明显提高;而且,这种技术是语言独立的。
|
|
|
|
1 |
;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期 |
2 |
郑吉;;粗糙谱聚类在文本挖掘中的应用[J];电脑知识与技术;2009年07期 |
3 |
赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期 |
4 |
崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期 |
5 |
胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期 |
6 |
渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期 |
7 |
苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期 |
8 |
付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期 |
9 |
曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期 |
10 |
孙士保;李保元;李天瑞;吴正江;郑瑞娟;;基于类内关键词的中文文本分类模型的改进[J];广西师范大学学报(自然科学版);2009年03期 |
11 |
韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期 |
12 |
胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期 |
13 |
刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期 |
14 |
吕冬煜,党齐民;基于文本挖掘的可视化竞争情报提取[J];计算机应用与软件;2005年02期 |
15 |
李文炬;文本挖掘技术在农业科技基础数据库中应用的探讨[J];农业网络信息;2005年11期 |
16 |
张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期 |
17 |
王珍珍;;关于文本挖掘中文本分类与文本聚类的研究[J];科技信息;2007年06期 |
18 |
李翠霞;林楠;;浅析文本挖掘技术[J];科技信息;2007年10期 |
19 |
李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期 |
20 |
孙玉娣;裴勇;;基于可视化文本挖掘的本体构建[J];情报杂志;2007年12期 |
|