收藏本站
《浙江大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流频繁项挖掘系统的研究和实现

陈力捷  
【摘要】: 随着互联网的发展,世界已经走向信息经济时代;信息资源并不稀缺,稀缺的是发现信息资源、综合信息资源的手段。搜索引擎就是因此应运而生的。但是随着可搜索资源和搜索引擎使用者的不断增加,搜索引擎的查询性能成为一个制约其发展的瓶颈。 改善搜索引擎的性能可以从不同方面入手,如加大服务器集群规模,推出各种垂直搜索,优化搜索目标排名方案,提供个性化搜索服务等。本文试图从分析查询输入入手,采用数据流挖掘技术,研究和改进一种面向数据流的频繁项挖掘算法,并实现一个频繁项实时统计系统,指导搜索搜索引擎的索引组织和网页抓取,从而提供更高效的搜索性能、更准确的查询结果。 本文针对目前的Lossy Counting算法在处理大数据流量的事务数据流上没有空间需求上限,处理速度随着数据量增大而降低的特点,提出了一种针对这种算法的改进算法Lattice Lossy Counting。通过设置时间窗格的方法是原算法具有挖掘结果具有实效性,并且为控制挖掘过程设置所需空间的上限;通过将算法拆分成两个阶段处理,在不影响精度的前提下提高算法处理速度。以使其符合在大数据流量长时间处理的情况下的应用需要。 另一方面,为了测试算法性能、实现算法应用,本文提出了一套面向搜索引擎的、基于数据流的频繁项挖掘系统——Fenster。该系统可以处理由查询产生的输入事务流或由点击产生的事务流,采用在线算法挖掘频繁项。根据应用环境的区别,本文分别介绍了Fenster的两种运行架构:集成环境应用于小型应用和算法性能测试;分布式的架构应用于大规模的应用。 通过实验,本文论证了这种新的算法在时间性能和空间性能上对于LossyCounting算法的改进是卓有成效的,具有广泛的应用前景;验证了该基于数据流的频繁项挖掘系统的可用性,并提出了该系统未来改进的方向。 除了搜索引擎之外,本系统提供的高度可配置性能力让系统在其他领域的应用成为可能。同时,数据流频繁项挖掘研究的不断深入也让本系统在诸如股票分析、人群行为分析、商业行为分析、天气和环境检测等诸多方面具有广阔的应用前景。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 朱剑波;一种基于垂直划分的数据流频繁项集挖掘算法[D];哈尔滨工程大学;2011年
【参考文献】
中国期刊全文数据库 前2条
1 刘巍巍,徐成,李仁发;嵌入式数据库BerkeleyDB的原理与应用[J];科学技术与工程;2005年02期
2 潘云鹤;王金龙;徐从富;;数据流频繁模式挖掘研究进展[J];自动化学报;2006年04期
【共引文献】
中国期刊全文数据库 前10条
1 庄致;郭胜;;嵌入式数据库在桥梁实时监测系统中的应用[J];重庆交通学院学报;2007年03期
2 潘怡;杜红燕;;数据流频繁闭项集挖掘研究[J];长沙大学学报;2010年05期
3 郭亚敏;孙秀红;易泽湘;;嵌入式数据库在网络性能管理系统的应用研究[J];湘南学院学报;2007年02期
4 刘钟情;余平;;基于Berkeley DB的电力直流监控系统的设计[J];电力科学与工程;2008年04期
5 鲍婧;叶桦;孙晓洁;厉剑;;Berkeley DB在家庭能源监控系统中的应用[J];东南大学学报(自然科学版);2010年S1期
6 顾成喜;;Berkeley DB Java Edition在嵌入式系统中的应用[J];电脑知识与技术(学术交流);2007年01期
7 张燕;顾小晶;;一个嵌入式数据库引擎的研究与实现[J];电脑知识与技术;2008年02期
8 李群;;数据流的频繁模式挖掘算法浅析[J];电脑知识与技术;2008年S2期
9 兰敏;董学仁;褚福强;王洪蛟;;基于分布数据库式网络节点的串行通信设计[J];仪器仪表用户;2007年06期
10 庄波;刘希玉;;数据流中频繁模式挖掘算法研究及进展[J];福建电脑;2008年03期
中国重要会议论文全文数据库 前7条
1 王海宽;费敏锐;黄丹青;;嵌入式技术推动工控网络化发展及应用[A];自主创新与持续增长第十一届中国科协年会论文集(2)[C];2009年
2 叶卫东;张晶晶;;嵌入式数据库Berkeley DB在桥梁健康监测系统中的应用[A];2007中国控制与决策学术年会论文集[C];2007年
3 冯化强;万麟瑞;;嵌入式数据库(EDB)任务执行器模型及其查询优化算法研究[A];第四届中国智能计算大会论文集[C];2010年
4 冯化强;万麟瑞;;嵌入式数据库(EDB)任务执行器及优化算法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年
5 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 祁丹丹;许耀锦;;嵌入式数据库Berkeley DB在水下机器人数据管理中的应用[A];2011年全国通信安全学术会议论文集[C];2011年
7 宋双;王立松;;一种嵌入式数据库内存管理设计与实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
中国博士学位论文全文数据库 前8条
1 刘康苗;自适应网络信息获取服务技术研究[D];浙江大学;2008年
2 周黔;高性能数据流模式发现算法及其应用研究[D];浙江大学;2008年
3 陈辉;数据流频繁模式挖掘及数据预测算法研究[D];华中科技大学;2008年
4 敖富江;数据流频繁模式挖掘关键算法及其仿真应用研究[D];国防科学技术大学;2008年
5 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
6 李琨;监控技术与涌现性分析在煤矿瓦斯灾害防治中的应用研究[D];昆明理工大学;2009年
7 张玉;骨干网流监测关键技术研究[D];哈尔滨工业大学;2010年
8 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯化强;任务执行器软件构架及优化方法研究[D];南京航空航天大学;2009年
2 宋双;基于Berkeley DB的图像信息索引机制的设计与实现[D];南京航空航天大学;2009年
3 李宏雷;自动检票机控制系统的设计与实现[D];哈尔滨工业大学;2010年
4 陈嘉;嵌入式主存数据库索引机制的研究与改进[D];湖南师范大学;2006年
5 谢珩;企业PC设施远程管理系统[D];电子科技大学;2006年
6 李喆;基于CORBA的存取导航系统中资源封装的设计与实现[D];国防科学技术大学;2005年
7 万俊;智能手机中基于SQLite的媒体查询功能的研究与实现[D];南京理工大学;2006年
8 郑学双;数据流中频繁项集挖掘研究[D];北京交通大学;2007年
9 盛小亮;嵌入式数据库索引机制研究与实现[D];电子科技大学;2007年
10 陈锦强;嵌入式数据库技术在煤矿井上监控系统的开发与应用[D];昆明理工大学;2007年
【同被引文献】
中国期刊全文数据库 前8条
1 刘渝妍;岳强;赵卿;;构件化数据挖掘体系结构[J];四川兵工学报;2008年03期
2 王爱平;唐玄;;基于完成端口的网络服务应用程序开发[J];硅谷;2009年21期
3 杨蓓;黄厚宽;;挖掘数据流界标窗口Top-K频繁项集[J];计算机研究与发展;2010年03期
4 何炎祥;向剑文;朱骁峰;孔维强;;不产生候选的快速投影频繁模式树挖掘算法[J];计算机科学;2002年11期
5 彭慧伶;舒云星;武新;;基于FP-tree的最大频繁项集挖掘新算法[J];计算技术与自动化;2009年02期
6 尹田田;张俊虎;;SMJ:基于大纲的数据流多连接操作[J];计算机应用研究;2009年05期
7 张西广;邓大立;郑秋生;阎保平;;科学数据网格研究进展[J];计算机应用研究;2009年10期
8 陈晓云;兰聪花;;一种基于粗糙集的属性值约简方法[J];计算机应用与软件;2010年08期
中国博士学位论文全文数据库 前1条
1 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
中国硕士学位论文全文数据库 前2条
1 肖光磊;名老中医经验传承中的数据挖掘技术研究[D];南京理工大学;2008年
2 何艳珊;并行化频繁项集挖掘及其在数据流中的研究[D];兰州大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 刘云生,夏家莉,许贵平;嵌入式数据库系统的事务调度[J];软件学报;2002年08期
中国硕士学位论文全文数据库 前2条
1 姚泽勤;一种传输产品中实时嵌入式数据库的研究[D];西安电子科技大学;2002年
2 汪静;基于文件系统的嵌入式数据库的设计和实现——EDB的设计和实现[D];电子科技大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 刘芝怡;尹飞鸿;;基于FP-矩阵的频繁项集挖掘算法[J];中国制造业信息化;2011年15期
2 范黎林;林卫;;矩阵约束下的频繁项集挖掘方法研究[J];计算机工程与应用;2011年21期
3 苏勇;郑昭华;范玉玲;;数据流中的频繁项集挖掘[J];信息技术;2011年06期
4 刘海蓉;闫仁武;;一种改进的加权关联规则挖掘算法[J];现代电子技术;2011年12期
5 张浩;景凤宣;谢晓尧;;基于数据挖掘关联规则Apriori改进算法的入侵检测系统的研究[J];贵州师范大学学报(自然科学版);2011年03期
6 宋威;刘文博;李晋宏;;基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J];山东大学学报(工学版);2011年04期
7 崔建;李强;王国师;;一种针对大型事务数据库的关联规则挖掘算法[J];空军雷达学院学报;2011年03期
8 张红艳;都娟;;关联规则中Apriori算法的应用[J];数字技术与应用;2011年08期
9 杜琳;陈云亮;朱静;;一种新的在图像关联规则挖掘中产生频繁项集的方法[J];微电子学与计算机;2011年07期
10 赵明茹;郭键;孙媛;;基于线性链表存储结构的Apriori改进算法[J];科学技术与工程;2011年23期
中国重要会议论文全文数据库 前10条
1 温磊;李敏强;;基于有向项集图的频繁项集增量更新挖掘算法[A];2004中国控制与决策学术年会论文集[C];2004年
2 杨子良;陶宏才;;一种基于向量运算的频繁项集快速挖掘算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 温磊;牛东晓;何永贵;;基于权重约束的频繁项集挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 包勇;卢加元;吴慧中;;基于频繁项集的降维在数据挖掘中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 郭云峰;张集祥;;一种基于位向量的关联规则挖掘算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
7 杨仕博;贺彦琨;马志新;;一种基于极大完全子图的最大频繁项集并行挖掘算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
8 方炜炜;杨炳儒;唐志刚;杨君;;基于客观兴趣度的关联规则优化算法研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 王娜娜;谢炜;李烨;;邳州慢性病与生活习惯等因素的关联规则分析[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会壁报展示论文[C];2010年
中国重要报纸全文数据库 前10条
1 徐勇;移动数据流量呈爆炸性增长[N];人民邮电;2011年
2 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
3 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
4 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
5 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
6 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
7 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
8 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
9 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
10 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
中国博士学位论文全文数据库 前10条
1 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
2 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
3 李广水;基于服务的森林资源调查数据挖掘系统的研究[D];南京林业大学;2010年
4 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
5 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
6 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
7 倪萍;流数据挖掘关键技术研究[D];北京邮电大学;2010年
8 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
9 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
10 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
中国硕士学位论文全文数据库 前10条
1 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
2 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
3 龚舒;桥吊动态机械性能参数的统计特征分析及关联规则挖掘[D];上海海事大学;2005年
4 王涛;关联规则算法及并行化研究[D];河北大学;2006年
5 李辉;数据流上的频繁项集挖掘算法研究[D];北京交通大学;2007年
6 陈凯;关联规则挖掘算法研究[D];西南交通大学;2005年
7 孙茜;基于多媒体空间数据库的时变模式挖掘[D];四川大学;2006年
8 闫禹;多维关联规则数据挖掘研究及其在学生信息系统中的应用[D];沈阳工业大学;2003年
9 郑学双;数据流中频繁项集挖掘研究[D];北京交通大学;2007年
10 谢春丽;基于数据挖掘的Web行为特征分析与研究[D];苏州大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026