收藏本站
《山东师范大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的数据挖掘技术研究

马丽娜  
【摘要】: 网络技术已经渗透到了社会生活的方方面面,随着因特网在世界范围的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Internet发展为当今世界上门类最全、规模最大的信息库。WWW带给人们全新网络世界的同时,也将网络上的人们置于了一个庞杂的网络迷宫,面对缤纷复杂的Web空间,如何从浩如烟海的网络HTML文档中快速、高效地发掘所需信息便成为人们所关注的一个主要问题,Web数据挖掘是解决这个问题的一个有效手段。 近几年来,Web数据挖掘技术引起了研究人员的关注,低层信息的占有是发掘高层知识的前提,网络信息检索技术便成为目前Web数据挖掘的一个迫切需要深入研究的问题,因此,本文选择Web数据挖掘作为研究对象,重点研究的是基于Web的信息检索技术,对其中的一些相关内容进行了深入研究,旨在研究设计一种性能较好、能捕捉用户兴趣、提高精度的智能信息检索系统,更好的满足用户的需要。 网络上的信息检索技术虽然能够满足用户的部分信息需求,但效果并不理想,往往提供给用户信息的同时,又将用户置于系统提供的巨量信息的汪洋大海之中。目前,该领域的研究热点有多个方面,本文以信息检索模型和系统结构为出发点,在研究现有模型与结构的基础上,找出它们存在的缺点与不足,进行了一定的改进,并通过实验实例进行了分析、论证。 Web信息检索分为全文检索模型和基于内容的检索模型两种,各有其应用的场合与优缺点,其中,基于内容检索模型中的向量空间模型是效果较好、近些年来被广泛应用的一种方法。向量空间模型最大的优点在于知识表示方法上的巨大优势,用N维空间的向量表示文档,用向量之间的夹角表示文档的相似度,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题,将难以计算的文字量化成很容易计算的实数,使问题的复杂性大大减小。但是,并不能够说目前的向量空间模型是最理想的,本文通过实验证明了VCM表达信息的不精确性。 信息论是C.E.Shannon为了解决信息传递过程问题而建立的理论,能够用信息来消除不确定性。本文在前人研究的基础上,将信息增益引入到VCM权重计算方法TF IDF的整个过程中,形成结合信息增益的TF IDF相似度计算方法、标准确信度计算方法,得到最终的引入了信息增益的文本分类计算方法TF IDF IG。本文通过实验证明,改进以后的方法在兼顾词语在文档集合中分布的数量情况的同时,也考虑了词语在文档集合中分布的比例情况,不仅能够正确的区分相似度的大小关系,还能够较好的捕捉确信度的比例关系。TF IDF IG方法不仅保持了TF IDF方法对文档类别的区别性,而且还能够捕捉到这种区别性的更为详细的比例上的差别,说明在保持计算量基本不变的情况下,改进后比改进前在多个角度多个方面均有所改进,减少了不确定性和模糊性。 山东帅范大学矾上毕业论文 知识求精是知识获取必不可少的步骤,机器学习是使计算机具有智能的有效手段, 0_.__。_..__,,_、,__,_,。。_.,_。。_,。。、。,_.、….__。…__._._。。_ 其中,有导师指导的人工神经网络能够以模糊的结构学习较为精确的内容,是将模糊 的知识进行模糊计算和模糊描述的理想方法。词条项与文档类别之间的模糊关系难以 用精确的方法进行精确地描述与计算,模糊的知识用模糊的方法能得到较好的解决, 因此本文将神经网络应用到信息检索模型中,将之与向量空间模型相结合,形成了一 种改进的向量空间模型 VCM ANN。结合模型按照向量空间模型的基本原理进行工作,用 神经网络对标准VCM的不精确知识进行求精,调整信息隐藏于FTART网络的连接权重 中。我们通过实验证明了人工神经方法的计算精度比改进的信息增益方法高,能够有 效地克服信息增益方法不能克服的精确性问题,计算的复杂性也比信息增益方法低, 这说明人工神经元网络方法虽然捕捉的是模糊信息,却能够较为精确的捕捉到文档中 词条项与文档的类别之间的模糊关系。 进入90年代,Agent的研究蓬勃兴起,面向Agent的计算被誉为“软件开发的又 一重大突破”、“软件界的新革命”,有人预测,Agent将是未来十年最重要的计算范型。 本文将Agent技术引入到Web信息检索中,设计了一个基于Agent能够捕捉用户兴趣 的智能检索模型InforMmer,提高信息检索系统的环境性能和客户性能,并对系统中 呛 的Agent关系、结构进行了详细介绍。 本文第一章为概论部分,阐述了本文研究的背景、拟做的工作。第二章探讨了数 据挖掘、文本挖掘,以及Web挖掘相关的几个方面。第三章着重研究了基于Web的信 息检索的基本原理、基本方法,将人工神经元网络和信息论成功的用于信息检索的计 算模型中,形成VCM与神经网络、VCM与信息论分别结合的两个模型,通过实验分析、 证
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 何拥军;龚发根;;基于用户辅助估计的相关网页搜索聚类[J];计算机技术与发展;2011年07期
2 ;第七届全国信息检索学术会议(CCIR 2011)征文通知[J];模式识别与人工智能;2011年03期
3 陈雅;谭华军;郑建明;;图书馆个性化服务中的Web日志分析技术研究[J];图书馆杂志;2011年07期
4 张韬;胡旻;;互联网Web数据挖掘模型设计与技术实现[J];卫星与网络;2010年10期
5 ;Comments on″Capacity Analysis of the Asymptotically Stable Multi-Valued Exponential Bidirectinal Associative Memory″[J];南京邮电大学学报(自然科学版);2011年03期
6 王艳;;数据隐私保护技术综述[J];知识经济;2011年14期
7 杜垒;王飞;;数据挖掘在学生管理中的应用[J];科技信息;2011年18期
8 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
9 胡锟;杨路明;;浅谈移动CRM客户价值细分[J];电脑知识与技术;2011年13期
10 李想;;PLE编码在关联数据挖掘中的应用[J];电脑知识与技术;2011年15期
11 张博;张超伟;;中药方剂数据挖掘中的数据预处理研究[J];电脑知识与技术;2011年17期
12 吴思萍;;高等院校图书馆的个性化服务研究[J];华章;2011年13期
13 杜英;;关联规则挖掘研究[J];知识经济;2011年14期
14 王真;刘海燕;;搜索引擎的比较及在网络信息检索中的作用[J];黑龙江科技信息;2011年18期
15 李炳燃;张金哲;;数据挖掘在设备故障诊断专家系统知识获取中的应用[J];科技信息;2011年20期
16 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期
17 张红艳;都娟;;关联规则中Apriori算法的应用[J];数字技术与应用;2011年08期
18 吴旭东;柳炳祥;;聚类分析在高校图书馆管理中的应用[J];电脑开发与应用;2011年09期
19 吕鸣剑;;数据挖掘在知识工程中的应用研究[J];电脑知识与技术;2011年23期
20 熊芃;邓蓓;;数据挖掘在图书馆读者借阅系统中的应用[J];九江学院学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前10条
1 张磊;王斌;靖红芳;吴丽辉;;中文网页搜索日志中的特殊命名实体挖掘[A];第五届全国信息检索学术会议论文集[C];2009年
2 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
3 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
6 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
7 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
8 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
中国重要报纸全文数据库 前10条
1 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
2 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
3 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
4 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
5 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
6 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
7 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
8 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
9 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
10 ;数据挖掘流程[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 王晓华;基于内容的搜索引擎技术研究及其应用[D];郑州大学;2005年
2 马丽娜;基于Web的数据挖掘技术研究[D];山东师范大学;2002年
3 毕蕾;基于领域本体的Web信息抽取技术研究[D];扬州大学;2008年
4 李晨;IM智能搜索机器人系统[D];华东师范大学;2008年
5 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
6 Ssengonzi Charles;模糊聚类算法在个性化的WEB信息搜索助手的应用研究[D];大连理工大学;2003年
7 孙小林;金融数据挖掘中的增量聚类算法及应用研究[D];华中科技大学;2004年
8 龙昕;面向专家检索的社区挖掘研究[D];云南大学;2010年
9 赵彩云;数据挖掘在外贸业务分析决策系统中的应用研究[D];北京工业大学;2003年
10 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978