收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流频繁项挖掘系统的研究和实现

陈力捷  
【摘要】: 随着互联网的发展,世界已经走向信息经济时代;信息资源并不稀缺,稀缺的是发现信息资源、综合信息资源的手段。搜索引擎就是因此应运而生的。但是随着可搜索资源和搜索引擎使用者的不断增加,搜索引擎的查询性能成为一个制约其发展的瓶颈。 改善搜索引擎的性能可以从不同方面入手,如加大服务器集群规模,推出各种垂直搜索,优化搜索目标排名方案,提供个性化搜索服务等。本文试图从分析查询输入入手,采用数据流挖掘技术,研究和改进一种面向数据流的频繁项挖掘算法,并实现一个频繁项实时统计系统,指导搜索搜索引擎的索引组织和网页抓取,从而提供更高效的搜索性能、更准确的查询结果。 本文针对目前的Lossy Counting算法在处理大数据流量的事务数据流上没有空间需求上限,处理速度随着数据量增大而降低的特点,提出了一种针对这种算法的改进算法Lattice Lossy Counting。通过设置时间窗格的方法是原算法具有挖掘结果具有实效性,并且为控制挖掘过程设置所需空间的上限;通过将算法拆分成两个阶段处理,在不影响精度的前提下提高算法处理速度。以使其符合在大数据流量长时间处理的情况下的应用需要。 另一方面,为了测试算法性能、实现算法应用,本文提出了一套面向搜索引擎的、基于数据流的频繁项挖掘系统——Fenster。该系统可以处理由查询产生的输入事务流或由点击产生的事务流,采用在线算法挖掘频繁项。根据应用环境的区别,本文分别介绍了Fenster的两种运行架构:集成环境应用于小型应用和算法性能测试;分布式的架构应用于大规模的应用。 通过实验,本文论证了这种新的算法在时间性能和空间性能上对于LossyCounting算法的改进是卓有成效的,具有广泛的应用前景;验证了该基于数据流的频繁项挖掘系统的可用性,并提出了该系统未来改进的方向。 除了搜索引擎之外,本系统提供的高度可配置性能力让系统在其他领域的应用成为可能。同时,数据流频繁项挖掘研究的不断深入也让本系统在诸如股票分析、人群行为分析、商业行为分析、天气和环境检测等诸多方面具有广阔的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘芝怡;尹飞鸿;;基于FP-矩阵的频繁项集挖掘算法[J];中国制造业信息化;2011年15期
2 范黎林;林卫;;矩阵约束下的频繁项集挖掘方法研究[J];计算机工程与应用;2011年21期
3 苏勇;郑昭华;范玉玲;;数据流中的频繁项集挖掘[J];信息技术;2011年06期
4 刘海蓉;闫仁武;;一种改进的加权关联规则挖掘算法[J];现代电子技术;2011年12期
5 张浩;景凤宣;谢晓尧;;基于数据挖掘关联规则Apriori改进算法的入侵检测系统的研究[J];贵州师范大学学报(自然科学版);2011年03期
6 宋威;刘文博;李晋宏;;基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J];山东大学学报(工学版);2011年04期
7 崔建;李强;王国师;;一种针对大型事务数据库的关联规则挖掘算法[J];空军雷达学院学报;2011年03期
8 张红艳;都娟;;关联规则中Apriori算法的应用[J];数字技术与应用;2011年08期
9 杜琳;陈云亮;朱静;;一种新的在图像关联规则挖掘中产生频繁项集的方法[J];微电子学与计算机;2011年07期
10 赵明茹;郭键;孙媛;;基于线性链表存储结构的Apriori改进算法[J];科学技术与工程;2011年23期
11 鹿莉霞;;关联规则在课程相关性分析中的应用[J];电脑知识与技术;2011年14期
12 况莉莉;;Microsoft关联规则在高校图书馆中的应用[J];宿州学院学报;2011年05期
13 芦海燕;;数据挖掘中关联规则算法的研究[J];电脑知识与技术;2011年26期
14 杜英;;关联规则挖掘研究[J];知识经济;2011年14期
15 张雅芬;王新;;一种挖掘负关联规则的有效方法[J];云南民族大学学报(自然科学版);2011年04期
16 冯山;游晋峰;;含负项的关联规则挖掘研究综述[J];四川师范大学学报(自然科学版);2011年05期
17 汪明;;SQL Server 2008 R2关联规则研究[J];电脑知识与技术;2011年16期
18 韩树河;李冬梅;;Apriori算法在汽车销售客户分析中的应用[J];南通航运职业技术学院学报;2011年02期
19 徐慎刚;;关联规则数据挖掘在税务稽查系统中的应用[J];财政监督;2011年19期
20 刘扬;;基于关联规则挖掘的PW4077D发动机放气活门控制规律研究[J];科技传播;2011年16期
中国重要会议论文全文数据库 前10条
1 温磊;李敏强;;基于有向项集图的频繁项集增量更新挖掘算法[A];2004中国控制与决策学术年会论文集[C];2004年
2 杨子良;陶宏才;;一种基于向量运算的频繁项集快速挖掘算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 温磊;牛东晓;何永贵;;基于权重约束的频繁项集挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 包勇;卢加元;吴慧中;;基于频繁项集的降维在数据挖掘中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 郭云峰;张集祥;;一种基于位向量的关联规则挖掘算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
7 杨仕博;贺彦琨;马志新;;一种基于极大完全子图的最大频繁项集并行挖掘算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
8 方炜炜;杨炳儒;唐志刚;杨君;;基于客观兴趣度的关联规则优化算法研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 王娜娜;谢炜;李烨;;邳州慢性病与生活习惯等因素的关联规则分析[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会壁报展示论文[C];2010年
中国博士学位论文全文数据库 前10条
1 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
2 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
3 李广水;基于服务的森林资源调查数据挖掘系统的研究[D];南京林业大学;2010年
4 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
5 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
6 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
7 倪萍;流数据挖掘关键技术研究[D];北京邮电大学;2010年
8 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
9 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
10 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
中国硕士学位论文全文数据库 前10条
1 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
2 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
3 龚舒;桥吊动态机械性能参数的统计特征分析及关联规则挖掘[D];上海海事大学;2005年
4 王涛;关联规则算法及并行化研究[D];河北大学;2006年
5 李辉;数据流上的频繁项集挖掘算法研究[D];北京交通大学;2007年
6 陈凯;关联规则挖掘算法研究[D];西南交通大学;2005年
7 孙茜;基于多媒体空间数据库的时变模式挖掘[D];四川大学;2006年
8 闫禹;多维关联规则数据挖掘研究及其在学生信息系统中的应用[D];沈阳工业大学;2003年
9 郑学双;数据流中频繁项集挖掘研究[D];北京交通大学;2007年
10 谢春丽;基于数据挖掘的Web行为特征分析与研究[D];苏州大学;2003年
中国重要报纸全文数据库 前10条
1 徐勇;移动数据流量呈爆炸性增长[N];人民邮电;2011年
2 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
3 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
4 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
5 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
6 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
7 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
8 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
9 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
10 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978