物资、能量跟疑息是天然迷信研讨的三个基础工...
luyued 发布于 2011-06-12 11:11 浏览 N 次,处理、传输和存储是信息计算的三大基本义务。随着信息化技术水平的不断提高,数据已经代替计算成了信息计算的中心,数据将成为企业终极有价值的财产。1998年图灵奖获得者Jim Gray曾断行:现在每18个月新增的存储量即是有史以来存储量之和。根据预测,2020年纪据宇宙将达到35.2 ZB(1 ZB = 1百万PB),比2009的0.8ZB增加44倍。在如此强盛的实际需求推动下,人们不断寻求海量存储容量、高性能、高安全性、高可用性、可扩大性、可管感性等特征,对存储的需求不断提高。信息量呈现爆炸式增长趋向,使得存储已经成为急需提高的瓶颈。
面临数据量的慢剧收缩,企业需要不断购买大量的存储设备来应答不断增长的存储需求。威望考察机构的研究表白,目宿世界至公司的年度存储需求增长率为100%。但是,这仿佛并不克不及从基本办理题目。起首,存储装备的洽购估算愈来愈高,为共同各天中小黉舍深刻发展保险教导运动,大多半企业难以蒙受如此伟大的开销。其次,跟着数据中央的扩展,存储管理成本、占用空间、制冷才能、能耗等也皆变得愈来愈重大,此中能耗尤其凸起。在好国,数据中心大概耗费失落2%总电量,每一年电费开消高达40亿美圆。Gartner曾猜测,2009年全球将会有一半以上的数据中心电力供应不足。Emerson的调研则表现2011年96%的数据中古道热肠将缺少电力,美国很多企业的数据中央被迫迁至别的电力供给充分的处所。再者,大量的同构物理存储资源大大增添了存储管理的庞杂性,轻易形成存储资源挥霍和利用效率不高。研讨发明,企业的存储利用率常常缺乏50%,存储投资回报率火仄较低。
因此,我们需要另辟门路来解决信息的急剧增长问题。高效存储理念恰是为此而提出的,它旨在减缓存储系统的空间增长问题,缩减数据占用空间,简化存储管理,最大程度天时用已有资源,降低成本。 高效存储目前还没有同一的定义,各个存储厂商分别有各自的界说和解释,但目标是基本分歧的,即提高存储利用效率、简化存储管理、降低存储能耗,从而获得较低的总持有成本和运营成本。高效存储的症结是均衡,需要在存储成本、商业价值以及经营危险之间作好平衡。
从现有的高效存储技术和存储产品来看,高效存储的根本策略主要有存储资源整合、动态存储容量配置、缩减存储容量、信息生命周期管理和降低能耗,高效存储技术基于这五种基本策略来实现高效的存储。SNIA GSI(Green Storage Initiative)针对绿色存储给出了四种基础策略:提高设备能耗效率、使用更少的冗余、提供更少的空间、存储更多的数据,相应的高效存储技术和管理策略概览如表1所示。
表1 高效存储技术和管理策略概览 NO. 高效存储技术 扼要阐明 1 Mange Your Data 削减冗余数据副本,减缓数据增加率;根据数据价值和SLA定造数据管理和维护战略,下降总成本 2 Select the Appropriate Storage RAID Level 根据数据代价和SLA挑选适合的RAID级别,联合其余高效存储技术去削减存储量和能耗 3 Leverage Storage Virtualization 将疏散物理存储资本整分解虚构的存储资本池,最大化存储利用率,减缓存储需要 4 Use Data Compression 有用加小数据通讯量和存储量,同是发生一定的性能背载,有些数据压缩有限,操纵次序影响压缩后果 5 Incorporate Data Deduplication 删除块级冗余数据,减小存储量 6 File Deduplication 删除文件级冗余数据,减小存储量 7 Thin Provisioning of Storage to Servers 自动粗减设置装备摆设在满意存储需供的同时按需调配存储,最小化存储需求 8 Leverage Resizeable Volumes 依据须要动态调剂数据卷巨细,提高存储应用率,减小存储需求 9 Writeable Snapshot 淘汰测试、仿实、建模等运用的存储空间需求 10 Deploy Tired Storage 根据数据价值和访问频度主动在没有同存储档次之间活动,降低成本 11 Solid State Storage SSD存在高性能、低能耗的特面,但本钱高、写颤动、使用寿命短等题目 12 MAID and Slow-Spin Disk Technology 将闲暇磁盘转换成非运动或低速扭转形式,可有效节省能耗 13 Tape Subsystem 容量年夜、存储有用期少、能干耗,磁带还是数据持久回档的最好抉择 14 Fabric Design 收集设想影响能耗和热却体系 15 File System Virtualization 管理物理散布的数据,提高存储效力、保险性、拜访机能和数据保护,降低能耗 16 Server, Fabric and Storage Virtualization 综合多种虚拟化技术减缓存储需求、提高存储利用率、降低能耗 17 Flywheel UPS Technology 针对分歧价值的存储采取差别的电源掩护策略 18 Data Center Air Conditioning Improvement 改良空调系统赞助节省能耗 19 Increased Data Center temperatures 保障数据核心畸形运转的条件下,进步 温度以节省大批能耗 20 Work with Your Regional Utilities 追求当地电力供给机构辅助节俭能耗 表1中 所列举的高效存储技术和治理计谋均是最好实际,然而单一技术常常易以明显天提高存储利用效率、降低能耗、降低成本,实践中凡是综合应用此中多种技术以取得 更佳的团体效果。别的,必定要根据现实的数据特点和利用情况来取舍开适的技术和策略,不成照搬治套,不然可能效果甚微,乃至得失相当。 今朝业界公认的五项高效存储技术分辨是数据压缩、重复数据删除、自动精简设置、自动分层存储和存储实拟化,已在存储产物获得普遍推行和应用,IBM最新推出的Storwize V7000存储阵列以至同时散那五项技术取一身。其他的相干技术借包含固态硬盘SSD、MAID技术、静态卷、RAID级别等,它们分离利用本身的特色提高存储效率、简化存储管理和节俭成本。 数据压缩是一种对数据举行编码以减小数据量的处置方式跟进程。正在有些应用中,采用有损压缩压缩过程当中会丧失一局部的原始信息对某些格式的数据如数字图象停止压缩;但是对大大都的IT应用,需要的是无损压缩压缩过程可能保留完全的本初疑息,广州办公家具,而且可以从压缩数据准确地重构原始数据。存储技术中使用无损数据压缩技术来减小数据量,根据今朝的技术程度,无益压缩算法个别能够把一般数据压缩到本来的1/2~1/4,经常使用的无损紧缩算法有霍妇曼(Huffman)、Lempel-Ziv(LZ)、LZW(Lempel-Ziv & Welch)、LZR (LZ-Renau)等压缩算法。个中,LZ算法应用广泛,PKZIP、gzip、PNG、CAB格式均使用该算法或变体;GIF图象格局应用LZW算法,LZR是ZIP办法的基本。
数据压缩要求在写进数据进步行编码,在读取数据行进行解码,因此会对存储系统性能产生一定的影响。然而,数据压缩技术可以有效缩减数据存储容量和存储硬件需求,在存储技术中应用非常广泛,特别是近线和离线存储。数据压缩并不是对任何数据城市效果隐著,诸如JPEG、MPEG、MP3等 文件格式,这类数据已经过应用层作过压缩处理,存储系统对它的再次压缩简直不效果,并且会产生额定的性能损得。别的,数据压缩和加密机制往往同时被应 用,压缩和加密操作需要按照合适的顺序执行。加密会对数据进行转置和变更,平日会增加字节冗余数据发现的难度和降低数据压缩率,以是数据压缩应该先于数 据加稀执行,而解压缩则以相反顺序执行,以获得更高的压缩率。
数 据压缩可以有效缩减数据存储容量,减缓数据增长压力,不足的地方是响应产生一定性能损掉。因此在存储系统中现实运用时,需要根据存储的性能、容量、成本等果 素综合斟酌,不克不及因为采用数据压缩而招致性能目标不能达标,为了提高性能而又增长总成本。每每来看,性能请求高的及时在线数据存储不适合采用数据压缩;而 以数据备份、容灾、归档、复制为主的近线和离线存储,存储容量需求大但性能要求较低,十分合适采用数据压缩技术。但是,假如有方法可以解决压缩息争压所产 生的性能丧失成绩(如公用芯片、高效算法),在线存储采用数据压缩也是可行的。 重复数据删除(Deduplication)是一种数据缩减技术,可对存储容量进行有效劣化。它经由过程删除数据集合重复的数据,只保存个中一份,从而打消冗余数据。Dedupe技术可以有效提高存储效率和利用率,数据可以缩减到原来的1/20~1/50。这类技术可以很大水平上减少对物理存储空间的需求,减少传输过程当中的收集带宽,有效勤俭设备采购与保护成本。同时它也是一种绿色存储技术,能有效降低能耗。
图1 反复数据删除技巧道理
Dedupe依照消重的粒度可以分为文件级和数据块级。文件级的dedupe技术也称为单一实例存储(SIS, Single Instance Store),数据块级的重复数据删除,其消重粒度更小,可以达到4-24KB之间。不言而喻,数据块级可以提供更高的数据消重率,因此目前支流的 dedupe产品都是数据块级的。Dedupe将文件宰割成定长或变长的数据块,采用MD5/SHA1等Hash算法为数据块计算指纹(FP, Fingerprint)。可以同时使用两种及以上hash算法计算数据指纹,以获得非常小的数据碰撞发生概率。具备相同指纹的数据块便可以为是相同的数据块,存储系统中仅需要保留一份。如许,一个物理文件在存储系统就对应一个逻辑表现,由一组FP构成的元数据。当进行读取文件时,先读取逻辑文件,而后根据FP序列,从存储系统中掏出响应数据块,复原物理文件副本。
Dedupe技术可以帮助浩繁应用降低数据存储量,节省网络带宽,提高存储效率,减小备份窗心,有效节省成本。Dedupe技术现在最胜利的应用范畴是数据备份、容灾和归档系统,然而究竟上dedupe技术可以用于良多场所,包括在线数据、近线数据、离线数据存储系统,可以在文件系统、卷管理器、NAS、SAN中实行。Dedupe也能够用数据传输与同步,作为一种数据压缩技术可用于数据挨包。为何dedupe技术最成功的应用是数据备份发域,而其他领域应用很少呢?这主要由两方面的起因决议的,一是数据备份应用对数据进行屡次备份后,存在大量重复数据,无比适合这类技术。两是dedupe技术的缺点,重要是数据安齐、性能。Dedupe使用hash指纹来辨认雷同数据,存在产生数据碰撞并致使数据不同等性的可能性。Dedupe需要进行数据块切分、数据块指纹盘算和数据块检索,消费可不雅的系统资源,对存储系统性能产生影响。
信息浮现的指数级删长方法给存储容量带来宏大的压力,而dedupe是最为卓有成效的处理计划,因而诚然其在性能和平安圆里有一定的不敷,它大止其讲的技术趋向无奈转变。更低碰碰概率的hash函数、多核、GPU、SSD等,这些技术推进dedupe走背成生,由作为一种产物而转向做为一种功能,逐步应用到远线和在线存储系统。ZFS已原死地支撑dedupe技术,咱们信任将会一直有更多的文件系统、存储系统收持这一功效。别的,数据压缩可以与dedupe技术结合应用以失掉更大的数据缩减比率,写进数据时往重得先于压缩执行,http://www.hk844.com,读与数据的履行逆序则相反,如斯可以到达最佳效果。
Dedupe的权衡维度主要有两个,即重复数据删除率(Deduplication ratios)和性能。Dedupe性能取决于详细实现技术,而重复数据删除率则由数据自身的特征和应用模式所决定,目前各存储厂商颁布的重复数据删除率从20:1到500:1不等。对何种数据进行消重,时光数据还是空间数据,全局数据仍是部分数据?什么时候进行消重,在线还是离线?在那边进行消重,源端还是目的端?若何进行消重?实际应用Dedupe技术时应当考虑各类身分,由于这些身分会间接影响其性能和效果。另中值得一得的是,hash碰撞问题现在还出有根本的解决方法,因此对于要害营业数据应该稳重考虑应用dedupe技术。 自动精简配置(Thin Provisioning)的观点最早由3PAR公 司提出,是一种全新的存储空间管理技术,利用虚拟化方法减少物理存储部署,可最大限度晋升存储空间利用率。它的中心道理是"诈骗"操作系统,让其认为存储 系统中有很大的存储空间,而实际上的物理存储空间并没有那末大。自动精简配置减少已分配但未使用的存储容量的糟蹋,根据用户的实际所需自动分配和利用存储 资源。目前,IBM、HDS、EMC、3PAR的高端磁盘阵列均支持该项技术。
图2 传统存储空间分配与自动精简配置比拟
传统的存储系统中,为确保存储容量充足使用,用户每每会部署多于实际需求的充足物理存储空间。但在实际使用过程中,安排容量平常已遭到充足利用。行业研究构造发现在某些名目中,实际使用容量仅占部署容量的20%-30%。因此,"自动精简配置"技术应运而生,旨在实现更高的存储容量利用率,并带来更大的投资回报。
自 动精简配置不会一次性的分别过大的空间给某项应用,而是根据该项应用实际所需要的容量,多次的少许的分配给应用法式,当该项应用所产生的数据增长,分配的 容量空间已不敷的时辰,系统会再次从后端存储池中补充分配一部门存储空间。自动精简配置技术扩展了存储管理功能,固然实际分配的物理容量小,但可认为操作 系统提供超大容量的虚拟存储空间。随着应用写入的数据越来越多,实际存储空间也能够实时扩展,而毋庸手动扩展。换句话道,自动精简配置提供的是"运行时空间",可以显著减少已分配但是未使用的存储空间。利用自动精简配置技术,能够帮助用户在不降低性能的情形下,大幅提高存储空间利用效率,降低初始投资成 本;需求变更时,无需变动存储容量设置;经由过程虚拟化技术集成存储,降低运营成本;减少超量配置,降低总功耗。
毫 无疑难,自动精简配置技术是一项异常有效的存储管理东西,但在实际应用过程中也会产生一些问题,需要根据所处的数据情况和存储需求来衡量。起首,当预先分 配的存储空间不敷时,系统会从存储资源池中弥补存储空间。然而,如果曾经分配的空间不再使用而空忙下来,空间收受接管绝对艰苦,当初的产品支持较少。可睹这种 技术出现只增不减的态势,弹性不足。其次,当存储空间跨越预先设置的阈值,系统会触发存储空间分配。对高负载的数据应用来讲,面临突发的访问峰值,有可 能在配置更多的物理存储空间之前系统便变得过载,导致磁盘和应用法式过错使得全部系统运行极为缓缓。再者,为了保持精简配置环境增减了存储系统复纯性,如 果一旦产生毛病,系统规复可能比传统的存储系统愈加迟缓。 自动分层存储(Automated Tiered Storage,受古平易近族是一个长久汗青的游牧平易近族之一,ATS)属于分层存储,而分层存储实在由来已暂。分层存储(Tiered Storage),也称为层级存储管理(Hierarchical Storage Management),狭义上讲,就是将数据存储在不同层级的介质中,并在不同的介量之间进行自动或脚动的数据迁移,复制等操作。同时,分层存储也是信息性命周期管理(ILM)的一个详细应用和真现。分层存储成长至自动分层存储,主要抛弃了鉴别数据和迁徙数据的野生操纵,而实现了智能化和自动化。
图3 自动分层存储构造
数 占有生命周期,从创立到删除的时间内,信息的贸易价值和访问频度不断降低。存储设备有高下贵贵之分,性能好、牢靠性高、读写速度快的设备,天然价钱就高; 而性能较低、读写速度慢的设备,价格也就相对昂贵。"分层"是指,对数据的访问需求增加或减少时,将数据在不同范例的存储介质之间迁移,即把那些不常被访 问的数据或过期的数据转移到速度较慢、成本较低的存储介质上,如SATA磁盘或磁带,以此来降低硬件成本;而把那些常常被访问或主要的数据放在速率较快、成本较高的光纤磁盘甚至固态硬盘(SSD)上,以此来提升性能。自动分层存储就是要让数据和设备"门当户对",不只可以降低存储容量成本和管理成本,同时还维持恰当的性能水平。 分层存储的概念已经涌现已久,而且这一律念被EMC、STK等厂商降华为信息生命周期管理(ILM)。不外,这一数据管理的幻想因为操作复杂、成本较高,实现起来却不那么理念,ILM喝采而不叫座。以往,数据的分层存储依附存储管理员的手工操作。现在,这一过程实现了自动化,智能硬件可以自动将数据转移到最经济高效的存储介质上。SSD的呈现使自动分层技术显得越发有须要,它能使一个两层乃至三层的存储系统享有SSD级的性能,
汗青上的明天:
对于数据发掘关系规矩的Oracle 实现 2010-12-15
下并收高流量网站架构 2010-12-15
- 07-01· 禁教唐诗算术能还幼儿快
- 07-01· 2011年06月17日
- 07-01· 唐诗宋词英译:李商隐 筹
- 07-01· 仿评《唐诗1000首》第186首
- 07-01· 没事干的时候背背唐诗吧
- 07-01· [转载]唐诗中“斜”字该读
- 07-01· 湖南醴陵瓷业转型升级
- 07-01· 奇瑞风云2两厢黑色|2010款
- 07-01· 摩根士丹利华鑫摩根士丹
- 07-01· 摩根士丹利华鑫近期优选
- 07-01· 中金投行部大摩出售中金
- 07-01· 摩根士丹利招聘6月2日【实
- 07-01· 营养防病圣典
- 07-01· 《博伽梵歌原意》之第十
- 07-01· [不错]斑斓圣典---减肥中常
- 07-01· 武乐圣典《太极武当》:武
- 07-01· 铁血英雄-现阶段战功牌兑
- 07-01· 2011年06月10日【原创】南歌
- 07-01· 【淘宝网信息】- 2010年的
- 07-01· 深圳品牌女装有哪些?