收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

分布式在线社交网络数据存储及优化技术研究

付松龄  
【摘要】:近年来,在线社交网络(Online Social Network,OSN)取得了巨大成功,在全球范围内拥有数十亿用户。通过OSN,用户可以结交新的朋友或与自己的朋友共享信息。目前比较流行的商用OSN包括Facebook,Twitter,人人网,新浪微博,腾讯微信等,它们都采用了集中式数据存储架构,所有的用户数据集中存储到服务提供商所运维的服务器上。服务提供商可以使用和分析这些数据,甚至直接将之出售给第三方,破坏了用户隐私。因此,这种集中式在线社交网络(Centralized Online Social Network,COSN)中存在严重的用户数据隐私泄露问题,已经引起了广泛的关注。在此背景下,分布式在线社交网络(Decentralized Online Social Network,DOSN)被提出来解决上述用户数据隐私泄露问题。尽管DOSN还不如COSN流行和成熟,但是业界对它的研究非常活跃,正处于快速发展时期。在DOSN中,为了保护隐私,用户数据绕过服务器直接在朋友圈内存储和转发。DOSN虽然能防止服务提供商泄露用户隐私数据,但是存在数据可用性低下的问题:当某一用户处于离线状态时,其它用户不能访问存储在该离线用户处的数据。为了在数据隐私保护约束条件下提高数据可用性,必须设计适用于DOSN场景的数据存储方案及相应的优化策略,这是目前DOSN研究中的最大挑战之一。DOSN具有如下特点:1)用户动态性高;2)接入终端存储资源有限;3)大部分用户的朋友圈不大;4)社交数据以小数据为主,且很少修改。本文通过深入研究已有的DOSN数据存储技术和存储优化相关工作发现,已有工作主要关注用户动态性,而忽略了其它特点对数据存储优化目标的影响。针对现有工作的不足,本文系统地研究了以数据隐私保护约束下提高数据可用性为主要目标的DOSN数据存储和存储优化问题,主要包括如下几个方面:1.存储容量敏感的DOSN数据可用性建模与分析已有的DOSN数据存储方案通常假设朋友总是能为用户提供足够的存储容量保存用户发布的数据,然而,这个假设在DOSN中是不合适的。为了保证不泄露用户隐私,未受保护的用户隐私数据只能存储在朋友圈内。而如下原因将导致朋友圈内的总存储容量有限:1)在线朋友数量有限;2)DOSN用户通常使用移动智能设备,它们的存储容量通常有限。直观地,有限的朋友圈总存储容量降低了数据可用性。但是仅仅知道这一粗略结论是不够的,我们还希望获悉存储容量对数据可用性的影响程度,以确定是否有必要进行数据存储优化。因此,在重新设计DOSN数据存储方案之前,有必要定量分析朋友圈可贡献的总存储容量与所能达到的数据可用性之间的关系,这是本文要解决的首要问题。针对此问题,本文提出了一个存储容量敏感的数据可用性模型,深入分析了朋友圈可贡献的总存储容量与所能达到的数据可用性之间的定量关系。此外,朋友圈内的在线朋友高度动态变化,影响了朋友圈可贡献的总存储容量,进而导致数据可用性也高度动态变化。针对这一问题,本文通过预测朋友圈实时总存储容量预测实时数据可用性,进一步研究了朋友圈总存储容量与所能达到数据可用性之间的动态变化关系。最后,本文还进行了大量实验,验证了存储容量敏感的数据可用性模型的有效性。基于存储容量敏感的数据可用性模型,给定预期数据可用性可以确定朋友圈所需的最小总存储容量,进而可以确定每个朋友所需贡献的平均最小存储容量,为应用程序存储容量的分配提供依据;反之,给定朋友圈总存储容量,可以确定朋友圈所能达到的最大数据可用性,从而可以确定预期数据可用性是否能够得到满足,并指导下一步的数据存储方案设计。2.云辅助的dosn数据存储方案cadros如上文所述,dosn中,为了保证用户隐私不被泄露,数据在未受保护的情况下只能冗余存储在朋友圈内。但是dosn是一个高度动态的网络,用户可以随时添加和删除朋友,且朋友可以随时上线和下线,所以朋友圈内在线朋友集合和所贡献的总存储容量是有限且动态变化的。如果仅依赖朋友圈冗余存储用户数据,将不能获得较高的数据可用性。以数据隐私保护约束下提高数据可用性为主要目标,设计适用于dosn的数据存储方案是本文要解决的第二个关键问题。针对该问题,本文基于存储容量敏感的数据可用性模型,提出了一种云辅助的dosn数据存储方案cadros,引入云服务器提高数据可用性。当朋友圈不能满足数据存储需求时,将多余数据用纠删码技术分片编码后存储到云服务器中,且保证云服务器中存储的数据片段数量不超过恢复原始数据所需要的数据片段数量,以防止云服务提供商获得原始数据,从而保护了用户数据隐私。本文定量研究了cadros的数据存储能力,讨论了cadros的数据可用性,从理论上证明了cadros方案的可行性和有效性;同时还建立了朋友圈内朋友动态行为的概率模型,通过预测朋友圈将来的数据存储能力和存储需求,建立了cadros实时数据可用性预测模型,可以为下一步设计数据存储策略提供依据。3.社交数据在dosn中的存储优化技术上一研究中的实时数据可用性预测结果只是表明cadros在给定朋友圈总存储容量的前提下有能力达到相应的数据可用性。朋友圈最终是否能获得预期的数据可用性还依赖于数据存储策略。即使朋友圈能提供足够的存储容量,如果没有一个好的数据存储策略,也不能获得理想的数据可用性。在cadros数据存储方案中,如何基于实时数据可用性预测结果,针对dosn用户行为特征,设计一个适用的数据存储策略是本文要解决的第三个关键问题。针对这一问题,本文进一步优化Cadros数据存储方案,研究社交数据在DOSN中的存储优化技术,首先提出了一个开销敏感的数据划分方法和存储策略,分别确定存储到朋友圈内和云服务器中的数据,可充分利用朋友圈可用存储容量,使系统开销最小;然后,提出一个可用性驱动的DOSN数据副本放置方法,合理地将数据放置到朋友圈内,可实现预期的数据可用性,且能均衡系统负载,降低系统为实现数据可用性所造成的维护开销。4.社交数据在云服务器中的存储优化技术如上文所述,Cadros数据存储方案不仅将用户数据冗余存储在朋友圈内,还在朋友圈不能满足数据存储需求时将一部分数据存储到云服务器中。云服务器具有长期高可用的特点,因此云服务器上数据的可用性可近似认为达到100%,不存在数据可用性问题。然而当用户访问云服务器上社交数据时,却存在访问性能不高的问题。社交数据以小数据为主,并很少修改。云服务器通常采用传统的分布式文件系统来存储和管理用户数据,在处理海量社交小数据时性能较低。如何提高云服务器中社交小数据的访问性能是本文要解决的第四个关键问题。为了解决这个问题,本文首先研究了分布式文件系统处理海量社交小数据的性能瓶颈;然后提出了一种轻量级的文件系统iFlatLFS对社交小数据进行优化存储和管理。iFlatLFS大大简化了元数据结构和数据访问流程。新的元数据总量仅占原元数据总量的一小部分,可以被全部缓存到服务器内存中,消除了小数据寻址开销,提高了性能。最后本文在CentOS 5.5操作系统中实现了一个iFlat LFS原型,并集成到了开源分布式文件系统TFS中。本章最后进行了大量实验,结果证明,iFlatLFS能够优化存储海量社交小数据,大幅提高数据访问性能。综上所述,针对DOSN数据存储及存储优化问题研究面临的挑战和现有工作的分析与总结,本文首先定量分析了朋友圈贡献的总存储容量与所能达到的数据可用性之间的关系;在此基础之上,针对朋友圈总存储容量有限所导致的数据可用性低下问题,提出了一种云辅助的DOSN数据存储方案Cadros,解决了数据隐私保护问题,提高了数据可用性,并从理论上证明了Cadros方案的可行性和有效性,建立了实时数据可用性预测模型;然后研究了社交数据在朋友圈内的存储优化问题,基于预测结果提出了一种开销敏感的数据划分方法和存储策略以及可用性驱动的数据放置方法,可达到预期的数据可用性,且能均衡系统负载,降低数据可用性维护开销;最后研究了社交数据在云服务器中的存储优化问题,设计了一种高效的轻量级文件系统iFlatLFS,可改善云服务器上社交数据的访问性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑士贵;数据存储的全面管理[J];管理科学文摘;1997年09期
2 相晓明;网上存储:X:Drive[J];互联网周刊;2000年30期
3 王宇葳;谁来吞吐你的数据[J];互联网周刊;2000年30期
4 袁胜,冯毅,伍显峰,涂春明,盛云川;移动计费营业系统中数据存储的考虑[J];电信技术;2001年01期
5 杨向东;数据存储——深化金融电子化的奠基之石[J];华南金融电脑;2002年03期
6 李子臣,王振光,王文静;外包数据存储——经济、安全、高效[J];现代情报;2002年11期
7 杨向东;数据存储——金融电子化的基石[J];中国金融电脑;2002年03期
8 黄重讯;企业的数据存储[J];乡镇企业研究;2003年06期
9 李婕;;医院信息化促进数据存储中心的建立[J];医学信息;2006年09期
10 夏欢;熊前兴;冯樱;;数据存储的探讨[J];科技信息;2006年S4期
11 姚继明;;数据存储模式比较与中小企业数据存储方案选择[J];软件导刊;2007年15期
12 ;数据存储移动为王[J];个人电脑;2007年10期
13 杨靖;;在线数据存储——你存储了吗?[J];电脑知识与技术;2009年08期
14 彭泽华;胡开胜;;高校图书馆数据存储外包的探讨[J];电脑知识与技术;2009年22期
15 吴奇青;黄美珍;;浅谈中小企业应用云数据存储服务的优势和劣势[J];企业家天地(理论版);2011年05期
16 孟令玺;;信息时代数据存储与管理的思考[J];企业研究;2011年20期
17 王洁萍;李海波;宋杰;杜宇建;;云数据存储和管理标准化研究[J];信息技术与标准化;2011年09期
18 ;企业数据存储 巴法络值得你托付[J];计算机与网络;2012年12期
19 陆挺;;数据存储与企业应用[J];信息系统工程;2012年09期
20 陈曦;;浅谈如何有效加强地震数据存储的设备安全管理[J];计算机光盘软件与应用;2012年24期
中国重要会议论文全文数据库 前10条
1 孙峥皓;汪宏昇;阎岩;岑小锋;邓志均;;浅谈信息化战争对大数据存储与分析的要求及对策[A];2013第一届中国指挥控制大会论文集[C];2013年
2 张沁川;王厚军;;基于大容量闪存的数据存储与管理[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅲ)[C];2008年
3 霍跃华;;IP SAN在煤炭企业数据存储的应用研究[A];煤矿自动化与信息化——第20届全国煤矿自动化与信息化学术会议暨第2届中国煤矿信息化与自动化高层论坛论文集[C];2010年
4 盛磊;李美华;程林;;一种轧钢过程数据存储方法[A];全国冶金自动化信息网2014年会论文集[C];2014年
5 王文峰;李佳;;刍议信息系统数据存储与备份系统的构建方式[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年
6 张艳秋;李建中;杨艳;张兆功;;混合负载多媒体服务器的数据存储和数据提交[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 王淑江;;烟台日报传媒集团存储体系规划[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
8 ;Wallstor网络数据存储的新技术应用[A];江苏省微型电脑应用协会产学研成果交流会会议资料[C];2010年
9 韦大伟;;分布式数据存储中的机密性保护[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 韩德志;;内网数据存储安全关键技术的研究与实现[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 付松龄;分布式在线社交网络数据存储及优化技术研究[D];国防科学技术大学;2014年
2 张杰;一种高速数据存储方法的研究[D];中国科学技术大学;2013年
3 付永忠;基于AFM和硫系相变材料的超高密度数据存储机理研究[D];江苏大学;2010年
中国硕士学位论文全文数据库 前10条
1 葛佳;P2P网络信誉数据存储与恢复方法的研究与实现[D];昆明理工大学;2015年
2 潘阳;基于Hadoop技术在分布式数据存储中的应用研究[D];大连海事大学;2015年
3 萨日娜;一种基于综合阈值的分布式数据存储方法[D];哈尔滨工程大学;2011年
4 胡海光;钻探工程项目数据存储及其安全的应用研究[D];中国地质大学(北京);2012年
5 史玉丽;基于嵌入式的数据存储与通信模块的设计[D];内蒙古师范大学;2012年
6 赵晋;基于宽表的多租户数据存储模式研究[D];郑州大学;2014年
7 陈春霖;云计算中数据存储的完整性校验模型研究[D];东华大学;2013年
8 单旭;异构大数据存储方法研究[D];北京交通大学;2014年
9 王永洲;基于HDFS的存储技术的研究[D];南京邮电大学;2013年
10 王东晨;网络试验平台数据存储研究与实现[D];北京邮电大学;2013年
中国重要报纸全文数据库 前10条
1 中国惠普公司网络存储事业部技术顾问 周志峰;数据存储面临七大挑战[N];计算机世界;2001年
2 本报记者 郭涛;中兴通讯打造安全高效的大数据存储[N];中国计算机报;2013年
3 本报记者 陈巍巍;数据存储 进化正当时[N];计算机世界;2013年
4 本报记者 黄锐;绿源巢:大数据存储弄潮儿[N];东莞日报;2014年
5 毛玲玲 吴非;数据存储 安全为重[N];解放军报;2014年
6 本报记者 郭涛;华为存储:高端存储、大数据存储齐头并进[N];中国计算机报;2013年
7 本报记者 方慧玲;纠删码技术:大数据存储的“安全卫士”[N];江苏科技报;2014年
8 ;培养皿中的数据存储[N];网络世界;2007年
9 ;2010年中小企业数据存储市场六大趋势[N];网络世界;2010年
10 本报实习记者 陈勋燕;数据存储网络凸现商机 上海邮通转型前景看好[N];通信信息报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978