分布式存储研究报告|聚英国际:分布式存储.未来存储的刚需

原创:聚英国际研究院,战略合作:链世纪财经,链世纪财经 CEO焦仕可,作者简介:,聚英国际研究院,首席研究员,链世纪财经 CEO,区块链金融学者,研究领域:股权投融资,区块链, IPFS,前言:,移动互联网进入下半场, Web3.0顺势而为。随着5 G、大数据、云计算、区块链、 AI等技术的飞速发展,数据产业正处于新一轮的浪潮中。接踵而至的数据流量和新技术的爆发,将给现有数据服务网络基础设施带来巨大冲击,随着多样化业务从本地迁移到云端,现有网络系统必须进行创新升级,IPFS (星际文件系统)作为新一代互联网底层协议,在解决“普遍存在的海量数据”这一技术难题方面,效果显著。电脑专家吴军说:每一次科技突破,站在浪潮顶端的领导都会换一次。那么这次,会是谁呢?大容量非结构化数据激发了分布式云存储的刚性需求!软件定义存储,新一代绿色云存储推动数据产业降本增效!价值云存储,先进技术引领存储共享经济!行业还未定型,聚英国际预计将在分布式存储这条赛道上领先!数据的爆炸式增长,传统存储面临着严峻的挑战!根据 IDC发布的数据时代2025报告,2025年全球每年产生的数据将从2018年的33 ZB增加到175 ZB (以 TB为单位)。不仅如此, IDC还预测了全球数据量每两年就会翻番,资料来源: IDC,华为全球产业展望报告(Global Industry Vision)预计,到2025年,个人智能终端的数量将达到400亿台,在商业和社会层面上都有可能实现这一数字转变;到2025年,全球1000亿台连接将覆盖公用事业、交通运输、制造业、医疗、农业和金融等各个领域,推动数字化转型,届时公司应用云端化85%

AI利用率86%,数据使用率80%,每年1800亿 TB的新数据将源源不断地创造智慧和价值。就像 IPFS白皮书所说的那样,我们正在进入一个数据分发的新时代: PB级数据集的托管和分发;跨组织的大数据计算;大容量、高清晰度的按需或实时媒体流;大规模数据集的布局和链接;防止意外丢失重要文件等等。随着数据应用场景的扩展和数据利用率的提高,未来非结构化数据(文档、图片、视频等)将呈指数级增长,存储容量和数量将面临巨大挑战。来自天风证券(IDC对我国数据的预测是2025年48.6 ZB (18年到2025年复合增长率超过30%),其中80%是非结构化数据),目前,传统存储已经遇到了瓶颈。因为传统存储具有局部性,数据存储在局部存储设备中,只能纵向扩展(仅增加容量),性能与容量成反比,不能解决不断增长的非结构数据存储管理问题。因特网业务发展迅速,对成本的高度关注,传统的存储解决方案已经不切实际。分布式存储器,未来存储器的刚需!在未来,数据将像黄金和石油一样,成为个人、企业乃至社会的重要财富。大数据量的管理、存储、成本等问题,正倒逼网络后端分布式存储系统横向发展,即增加普通 PC服务器,提高整个系统的处理能力。分散式存储器是指大量的普通 PC服务器通过互联网相互连接,外部提供存储服务的系统,存储进化示意图,来源:天风证券,分布式存储是大数据时代传统存储技术自然进化的产物,未来存储的刚性,分布式存储相对于传统存储有更多的优势:可扩展性强(超大规模)、高可靠性和可用性、安全性、高利用率(随需应变服务)、透明服务、自动容错、成本更低、更好的服务能力和更好的便携性。分布存储器,将成为未来数据存储的主流!三、分布式存储,未来数据开发的基础!图为: IDC,阿里高级技术专家杨传辉在其著作中指出:大数据不仅需要存储海量数据,还需要通过适当的计算框架或工具来分析这些数据,从中提取有价值的部分,如果没有分布式存储,就谈不上分析大数据,不管是抖音的头条系,还是各平台的新闻软件,或是平时的个人和企业数据存储,大数据,云计算,云存储已经融入到我们生活中的各个方面。那么,分布式存储对于云存储,大数据,云计算究竟有多重要呢?第一,我们需要理解云存储的重要性。云存储属于托管存储,它通过多种云存储技术的结合,将由大量普通 PC服务器组成的存储集群虚拟化为一个可扩展、灵活、透明、可扩展的存储资源池,以统一的借口向授权用户提供存储资源池中的存储和数据服务,授权用户可以访问和管理存储资源池,并根据使用情况支付费用,云存采用友好的网络界面,与用户互动,无需担心技术和设备问题,为用户提供了数据存储,数据保护,数据管理等功能。云计算之所以能够实现如此之多的功能,关键在于,它的基础和核心是大规模后端分布式存储系统。云端存储和大数据,是构建在分布式存储基础上的应用。云存储器是云计算的存储部分,它的底层支持是云计算,不分布存储系统,就不能云存储,更不能支持云计算,更不能应用大数据,进行大数据分析。因此,如果没有分布式存储,我们现在所说的云存储,大数据,云计算的发展将会受到很大的抑制,现有的商业和技术发展也会受到很大的影响。分布存储将成为数据时代的崭新未来,发展前景不可估量!分布存储系统非常重要,并且已经被业界研究了很多年,为什么最近几年才进入大众的视野?原因之一在于,直到最近几年,谷歌、亚马逊和阿里等互联网公司在云计算和大数据方面的应用兴起,它才被大规模地用于工程实践,比如谷歌的分布式文件系统 GFS,分布式表格系统 google Bigtable,亚马逊的对象存储系统 AWS,阿里的 TFS,以及大量开源的分布式存储系统,这些系统都产生了很好的例子,比如 ceph

swift

Lustre

glusterfs等等。谷歌,亚马逊,微软,以及国内互联网三大巨头阿里巴巴,百度和腾讯,其核心技术都是处理海量数据的分布式系统。另外一方面,数据的爆炸式增长和互联网巨头云存储的中央化也开始出现种种弊端,虽然云存储给我们带来了很多便利,但过去的云存储采用的是分布式存储系统的底层架构,做的是顶层的中央化存储应用,所有的数据都掌握在互联网巨头的手里,在数据安全、隐私和定价权利方面,大众都有很大的限制,而这,正是 IPFS和 Filecoin这一新一代分布式存储系统要解决的问题。伴随着移动因特网的高速发展和5 G时代的到来,2014年 IPFS星际文件系统诞生,2017年 IPFS的补充协议 FilecoinNetwork在诸如区块链这样的技术热潮中面世,真正的去中心化分布式存储系统这一底层技术正式为人们所熟知和关注。一、算法控制硬件、信息置换能量,新一代分布式云存储系统更加绿色环保,据 OpenAI发布的《AI与计算》报告,自2012年以来, AI培训任务所用的算力呈指数增长,人们对算力的需求增加了300

000多倍,目前每3.5个月就增加一倍,每年大约增加10倍。由于区块链技术的迅速发展,近十年来,比特币挖矿在我国芯片研发市场上涌现出了一大批新人。嘉楠耘智和亿邦国际两大比特币矿商相继在纳斯达克上市。根据网络,中国现在已经拥有了全世界77.7%的比特币力量。算力的快速发展,一方面表明算力在芯片创新中发挥了重要作用,使我国的芯片研究与开发处于世界领先水平;另一方面表明算力作为计算矿工贡献的主要方式,也带来了两大弊端:计算资源的浪费和能源的巨大消耗。在过去,比特币挖矿曾被纳入淘汰行业,其重要原因还在于其本身难以创造价值。据剑桥大学的研究人员估计,比特币挖矿一年要用掉640多亿度电力,消耗的电力超过了整个瑞士的用电量。Filecoin是分布式存储网络协议 Filecoin在设计时就考虑到的,它利用区块链技术,将云存储市场转变为算法市场,在 Filecoin系统中,矿商的竞争能力与活动存储成比例,从而直接为客户提供有用的服务。这能激励矿工投入更多的存储设备和网络带宽,在保护环境的同时,也创造应用价值。作为一种补充协议, IPFS与 Filecoin之间最大的特点是其系统耦合和设计的综合性, IPFS作为一个版本化点对点的文件系统,为 Filecoin分布式存储网络提供了强大的数据支持。在谈及 IPFS时,中国证监会科技监管局局长、信息中心主任姚前表示,金融科技实际上是算力突破某个临界点后,数据与算法的一种融合。有些技术可以完全融合。块链上的数据是非常宝贵的,不可能存在大量的数据。如今有人提出了 IPFS (分布式文件系统),如何将其与大数据分析结合起来,如何通过区块链使数据可信,如何通过大数据分析使数据更加智能,这些都是未来的重要发展方向。多方面的研究表明,在 IPFS和 Filecoin网络协议和技术支持下,通过算法控制硬件,通过信息传递替代能量,新一代分布式存储不仅是更环保的绿色云存储,更符合时代的金融科技,更能促进数据产业的高速发展。二、硬件发展逐渐放慢,软件定义存储帮助存储行业降本增效!尽管分布式存储对于处理无所不在的数据有着非常重要的作用,但它对技术的应用、迭代、创新以及人才的综合能力都提出了更高的要求。若过去采用单机式纵向增加服务器来扩大存储容量,未来随着数据爆炸,对扩展性、成本、能耗等有较高要求的分布式存储系统将迎来软件定义存储的时代。一是硬件开发速度相对较慢,硬件融合算法,可有效提高计算能力。在过去,摩尔定律一直在推动整个硬件行业的发展,即每18个月计算机等 IT产品的性能将增加一倍;或每18个月计算机等 IT产品的性能将减少一半。自2005年以来的十多年间,集成电路的发展速度有所放慢,尽管基本上还可以实现每两年翻一番,但基于半导体材料的集成电路内部器件的集成已接近物理极限,经过50年的翻番发展,终于达到了这一水平。电脑专家吴军认为:集成电路还有发展空间,那就是要不断提高单位能耗的计算能力,而不是单片机的绝对计算能力。在这两个例子中,英伟达和 Google都是比较经典的例子。根据人工智能计算的特点,英伟达公司的人工智能芯片,即一种特殊的图形处理器,可以将计算精度从64位降至8位,并使用相同数目的晶体管构建数十倍的核心,从而降低每个核心的能耗。与英特尔的通用处理器相比,其单位能量消耗的计算能力可以提高两个数量级(大约100倍)。google宣称他们的人工智能芯片 TPU的计算能力比英伟达的 AI芯片又提高了两个数量级。其实践是在处理器中设计深度学习算法的特性。通过以上两个例子,我们可以看出,如果我们把信息处理算法和处理器结合起来,将会大大提高处理器的单位能耗计算能力,随着数据量的不断增大,分布式存储系统中硬件融合算法将成为未来提高存储性能的重要途径。因此, IPFS和 Filecoin网络受到了全球顶级投资机构的高度关注。图: IDC,目前,电脑硬件体系结构仍保持相对稳定。当硬件平台主要通过差异化来体现价值时,软件就处于一种受限状态;但是当硬件平台实现了标准化之后,软件定义的时代就真正来临了。(2)硬件成本的限制对软件层次有更高的要求,实际上,因特网公司的分布式存储系统是由大量普通 PC服务器通过网络连接而成的,成本低,性价比高。但普通服务器具有较高的性价比和故障率,需要在软件层面实现自动容错,保持数据一致性。此外,由于服务器的不断加入,需要能够在软件层面上自动实现负载平衡,使系统的处理能力得到线性扩展。尽管现有云存储降低了硬件成本和网络成本,降低了管理成本和电力成本,并提高了资源利用率,但大型云存储服务提供商可以通过从数据中心开始构建一套公共云存储解决方案,从而实现30多倍的成本节约。但为了真正实现理想的新一代分布式存储,正如 Filecoin网络所建议的,家用计算机也可以实现存储共享,这就对软件运营和分布式系统的规模效应提出了更高的要求。3)软件定义存储带来更低的成本和更多的创新可能性,这是未来存储发展的必然趋势, IDC中国副总裁兼首席分析师武连峰表示,未来 IT的核心是软件定义:软件定义网络、软件定义存储、软件定义数据中心等等,通过软件提高硬件的质量、灵活性、可用性,而软件则通过硬件为载体实现更大的价值。从硬件存储器抽象出软件定义存储器,即更多地由软件驱动和控制硬件资源,这也意味着它可以成为一个共享池,而不受物理系统的限制,从而最有效地利用资源。在精确的级别上,软件定义存储可以确保数据的存储访问能够更加灵活地管理。这也是

提示:如果您觉得本文不错,请点击分享给您的好友!谢谢
相关推荐
新闻聚焦
猜你喜欢
热门推荐
 
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。