收藏本站
《华中科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

文件系统语义分析技术研究

夏鹏  
【摘要】:文件系统语义是指文件系统在其生命周期内产生的一系列信息所表现出来的含义。相较于只能提供简单数据块语义的存储设备,文件系统能够提供更加丰富的语义知识来描述上层应用的复杂行为。因此,近年来,文件系统语义已经成为学术界和产业界日益关注的研究和发展的方向。不过,现有依赖定性描述型信息的语义分析方法却面临着巨大的挑战:众多类型不同的变量要素会影响文件系统语义知识的发现过程。更糟糕的是,由于这些影响要素本身之间也可能具有相依性,使得该类方法变得日益复杂且效果很难保证。在上述事实的背景下,本文所作的工作从定量的角度研究文件系统语义,提出了一系列文件相关性量化分析模型,这些模型能够综合地考虑不同类型要素对文件系统语义分析的影响,从而更加精确地挖掘隐藏在数据背后的重要文件语义信息—尤其是文件相关性信息。具体的,本文内容包括以下几个方面: 提出了一种文件相关性量化模型——FARMER。该模型将文件视为由若干语义要素组成的多次元向量空间,空间中的每个项元表示该文件的具体要素特征值。模型假设:文件之间相互关系的程度(或简称为文件关联度),可以经由计算每个文件(语义向量)之间的夹角偏差程度(相似度)而反映。这样,文件语义就被转换成了计算机可以处理和计算的结构化数据,文件之间的相关性问题也就转变成了向量空间之间的相似性问题。FARMER文件相关性量化模型是进一步运用各种定量分析方法研究复杂文件系统语义的重要基础。实验结果表明,根据FARMER模型评估的文件关联度能够准确地反映现实系统中文件相关性。 紧接着提出了一种文件相关性回归分析模型——CoMiner。该模型根据文件系统活动中观测到的兴趣现象样本数据建立回归方程来研究相关现象的数量变动关系。模型重点从两个方面分析文件相关现象:首先是在其他变量要素保持不变的情况下,某一种要素的变化对兴趣现象(如文件关联度)的影响;其次是运用多种样条或非样条回归模型将复杂的文件相关现象拟合成为函数关系,从而帮助更好的理解文件相关现象的关系形式。进一步的,CoMiner提供多种回归方程对现实世界的文件相关关系进行拟合,使其能够在给定合理代价前提下做出准确的预测。将CoMiner模型评估的关系强度结果应用到改进后FARMER文件相关性量化模型可以有效地提升后者的模型准确度:实验表明最大能够提升达到20%左右。 进一步提出了一种文件自相关性时间序列分析模型—TiMiner。该模型在文件系统语义挖掘过程中引入时间维度,运用时间序列分析方法研究文件系统现象随时间发生的变化。根据实际运行情况,总结了五条文件系统时间序列数据特征,分别是趋势性、周期性、异常观测值、条件异方差以及非线性特征,并针对这些特征分别采用不同时间序列分析方法进行分析。研究发现某一时刻的文件系统缓存命中率状态可以分解成为三个部分:之前时刻系统缓存状态的自相关部分、时间间隔内文件请求到达随机分布部分和相邻时刻状态的差分部分。实验结果表明,TiMiner文件系统缓存命中率预取模型能够比较好的匹配历史数据并有效地预测未来一段时间内的状态趋势。 为了论证述三种模型的有效性,设计和实现了一个实际的大规模分布式智能对象存储系统Cappella,该系统集成了一系列基于文件语义挖掘的服务优化模块来提高整体性能。本文同时讨论和展望了其他一些潜在的文件语义挖掘的应用,诸如:文件感知、可靠性和一致性等方面的问题,以及今后可能有更进一步研究潜力的方向和方法。此外,从若干典型的分布式文件系统的Trace中抽取出一些常用的文件变量要素并将这些要素集成到Cappella系统的实验测试环境中。实验结果表明,本文提出的一系列文件相关性分析模型能够有效的提升Cappella系统服务的性能。特别的,CoMiner模型最高能够提升系统缓存命中率达到45%左右,提升系统聚合输出带宽达10%左右。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 尤红桃;张延园;刘胜;;Linux下高效存储优化的研究[J];计算机与现代化;2012年11期
2 尤红桃;张延园;林奕;刘胜;;基于语义信息的存储能效的研究[J];计算机科学;2013年S1期
中国硕士学位论文全文数据库 前1条
1 周海涛;分布式环境下云存储的数据存储策略研究[D];武汉理工大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
8 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
9 左吉峰;乔均俭;;ID3算法的合理性证明及实验分析[J];保定学院学报;2008年04期
10 王晓红,高洪深;数据挖掘技术在大型超市中的应用研究[J];北方工业大学学报;2003年03期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
6 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
8 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
9 ;Rough Set Based Autolanding Control[A];第二十三届中国控制会议论文集(下册)[C];2004年
10 刘东升;;基于Mobile Agent的分布式ID3挖掘模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
2 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
3 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
4 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
5 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
6 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
7 李军;不平衡数据学习的研究[D];吉林大学;2011年
8 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
9 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
10 杨明;分布式环境下的安全策略关键技术研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
5 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
6 李仁良;决策树算法在临床诊断中的应用研究[D];辽宁工程技术大学;2009年
7 郑陶;基于平面向量的决策树算法在高考志愿选择系统中的应用[D];辽宁工程技术大学;2010年
8 孙怡哲;一种改进的决策树算法研究与应用[D];辽宁工程技术大学;2010年
9 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
10 周翔;决策支持技术在企业销售系统中的应用研究[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 白银;刘宏;;基于本体论的网络信息资源分类组织研究[J];东北财经大学学报;2009年02期
2 胡全;邱兆文;王霓虹;;基于多特征融合的图像语义标注[J];东北林业大学学报;2008年10期
3 申丽君;;云存储及其安全性研究[J];电脑知识与技术;2011年16期
4 韩光辉;曾诚;;一种半自动Web服务语义标注方法[J];计算机与数字工程;2012年04期
5 聂茹,张虹;数据仓库元数据管理模式的分析与比较[J];计算机应用研究;2005年02期
6 鲁丰玲;李朝永;;浅析网络存储技术[J];科技信息;2009年26期
7 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
8 孙莉;於建华;徐燕萍;吴素芹;;基于本体的语义元数据管理[J];计算机工程与设计;2008年16期
9 耿科明;袁方;;Jena推理机在基于本体的信息检索中的应用[J];微型机与应用;2005年10期
10 何典;吴敏;胡春华;;物联网环境下负载均衡的低代价云存储数据副本分布[J];中南大学学报(自然科学版);2012年04期
中国博士学位论文全文数据库 前7条
1 杨天明;网络备份中重复数据删除技术研究[D];华中科技大学;2010年
2 吴晨涛;对象存储系统中热点数据的研究[D];华中科技大学;2010年
3 陆正武;VBR流媒体分块与I/O调度研究[D];华中科技大学;2011年
4 吴郑红;教学视频的语义标注研究[D];华东师范大学;2011年
5 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
6 肖亮;基于服务质量的对象存储优化研究[D];华中科技大学;2009年
7 陆承涛;存储系统性能管理问题的研究[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前7条
1 徐婧;云存储环境下副本策略研究[D];中国科学技术大学;2011年
2 陈琮;基于Jena的本体检索模型设计与实现[D];武汉大学;2005年
3 仇德成;网络存储Cache替换与磁盘调度算法研究[D];兰州大学;2007年
4 金娟;基于本体的政府信息资源分类组织研究[D];东北财经大学;2007年
5 林晖;专利信息检索实验系统的研究与实现[D];北京邮电大学;2009年
6 张继芳;基于本体的教学知识构建及应用[D];南昌大学;2008年
7 张朝阳;基于语义元数据的分布式异构数据库集成研究[D];国防科学技术大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 王怀毅;;西文编目——名称规范文件系统的建立[J];中国图书馆学报;1987年01期
2 洪喆子;;UNIX SYSTEM V/68操作系统概述[J];微型机与应用;1988年04期
3 张耀清;微机智能文件系统(MIFS)[J];工矿自动化;1990年02期
4 周佶,李孟深;UNIX文件系统的剖析[J];农金纵横;1992年06期
5 张学峰;让FAT16与FAT32文件系统共存[J];电脑;1998年12期
6 ;光盘的刻录格式[J];软件;2002年09期
7 Mr.Mistake;;煮酒论英雄——Java C#特性大比拼[J];中文信息;2002年05期
8 黄珊;军用嵌入式系统中的Flash文件系统设计[J];现代电子技术;2003年16期
9 王新彭;Linux系统调用分析[J];太原师范学院学报(自然科学版);2003年04期
10 邱晓理;IBM RS/6000小型机备份及恢复策略[J];华南金融电脑;2004年02期
中国重要会议论文全文数据库 前10条
1 查达仁;荆继武;高能;;一种基于文件系统的计算机取证方法[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
2 田世春;;从信息保护谈UNIX操作系统的安全性[A];第六次全国计算机安全技术交流会论文集[C];1991年
3 宇振全;李松辉;张天亮;;HP OpenView OmniBack Ⅱ网络数据备份软件开发应用[A];第六届全国计算机应用联合学术会议论文集[C];2002年
4 欧庆于;张昌宏;吴晓平;;线性嵌入式文件系统的设计与实现[A];舰船电子装备维修理论与应用——中国造船工程学会电子修理学组第四届年会暨信息装备保障研讨会论文集[C];2005年
5 赵新明;张杭;王大平;;基于嵌入式Linux的通信管理机的研制[A];第一届电器装备及其智能化学术会议论文集[C];2007年
6 周晓俊;王旭;杜中平;;基于文件系统过滤驱动的文件访问控制技术研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
7 汪黎;章文嵩;杨学军;;Cfslight:一个新型的轻量级对象存储集群文件系统[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
8 齐慧玲;赵旭东;;基于Windows NT内核的文件加解密设计与实现[A];2008年中国西部青年通信学术会议论文集[C];2008年
9 王维;朱东;彭开原;;从文件系统向数据库系统的应用软件自动转换方法和实践[A];第十届全国数据库学术会议论文集[C];1992年
10 敖一峰;邹恒明;;磁盘级的ZFS数据跟踪技术与分析[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李勇军;西南油气田公司电子文件系统全面覆盖[N];中国石油报;2007年
2 乐天编译;近距离观看Snow Leopard Server[N];计算机世界;2008年
3 ;CDP:适用于恢复而非容灾[N];网络世界;2006年
4 郭涛;StorNext:管好海量多媒体文件[N];中国计算机报;2007年
5 记者 杨婧瀚;管道公司召开电子文件系统启动视频会[N];石油管道报;2007年
6 本报记者 张峰;快照 快速备份显奇效[N];网络世界;2005年
7 XiaoTao;文件系统自由转换高级应用[N];电脑报;2001年
8 中南林大理学院 旷岭 国防科大计算机学院 李永进 刘军;版本文件系统的虚拟存储策略[N];中国计算机报;2006年
9 中国传媒大学计算机学院 朱立谷柳昊 孙志伟 郅斌;非结构化数据的归档术[N];中国计算机报;2007年
10 ;如何为Linux下的硬盘减负[N];中国计算机报;2008年
中国博士学位论文全文数据库 前10条
1 夏鹏;文件系统语义分析技术研究[D];华中科技大学;2011年
2 徐虎;基于SAN的安全单映像Cluster文件系统关键技术的研究[D];国防科学技术大学;2003年
3 刘立坤;海量文件系统元数据查询方法与技术[D];清华大学;2011年
4 刘贤焯;NGB智能终端数据访问关键技术研究[D];中国科学技术大学;2013年
5 卢军;高性能网络存储技术研究[D];电子科技大学;2002年
6 王洪体;数字地震仪网络化与智能化技术研究[D];中国地震局地球物理研究所;2006年
7 董晓明;对象属性控制的存储策略研究[D];华中科技大学;2006年
8 刘朝斌;虚拟网络存储系统关键技术研究及其性能评价[D];华中科技大学;2004年
9 李庆虎;基于P2P架构的网格文件系统研究[D];清华大学;2004年
10 赵振;一种自适应海量存储系统组织策略及关键技术研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 苏鹏;基于智能卡的闪存文件系统的研究[D];武汉科技大学;2010年
2 朱晨;电子词典中文件系统的设计与实现[D];电子科技大学;2013年
3 刘智;某咨询公司文件系统的设计与实现[D];电子科技大学;2013年
4 金霞;EXT3文件系统结构研究及入侵检测的实现[D];解放军信息工程大学;2004年
5 潘光晖;嵌入式文件系统的设计与实现[D];电子科技大学;2003年
6 刘媛;个人云存储技术研究[D];电子科技大学;2010年
7 吴纪锋;蓝天数控系统中文件系统可靠性的研究与实现[D];中国科学院研究生院(沈阳计算技术研究所);2012年
8 张敏;基于对象存储文件系统研究[D];电子科技大学;2012年
9 何英;一种嵌入式文件系统的设计与实现[D];电子科技大学;2001年
10 卢雪山;文件系统检测修复工具的研究与改进[D];国防科学技术大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026