华为FusionStorage分布式存储:引领云和AI时代的大

华为FusionStorage分布式存储:引领云和AI时代的大

时间:2020-02-14 19:52 作者:admin 点击:
阅读模式 15:42

各行业基于大数据持续唤醒沉睡的数据价值

大数据产业的快速发展和Hadoop的贡献密不可分,可以说二者相生相伴,互相成就。Hadoop诞生于2006年,从1.0、2.0一直走到今天的3.0时代,它扮演着数字时代新型生产工具的角色,也见证了企业唤醒沉寂数据价值的不凡征程。

图1 Hadoop架构演进趋势

在运营商,基于大数据进行经营分析和日志留存,让日志查询更方便,经营投资更精确;在金融,基于大数据分析进行个性化推荐、实时风控,实现精准营销;在政府,基于大数据实现城市治理、公共服务、应急指挥,实现普惠民生。

如今,我们又跨步迈入云+AI的时代,各行各业的数据量都呈现爆炸式增长的趋势,华为《全球产业展望(GIV)》预测,全球数据量将从2018年32.5ZB快速增长到2025年的180ZB。面对汹涌而来的海量数据存储和分析需求,大数据如何进一步支撑数据挖掘和变现,成为各行各业面临的新挑战。

如何提升效率成为新时代大数据平台演进必须思考的问题

以运营商为例,作为数据管道的提供者,积累了大量的用户数据,也顺理成章成为了大数据应用的先行者,通过多年的不断探索,构建了行业内领先的大数据系统,包括经营分析、网优网规、详单、日志等。

因各种历史和技术原因,大数据平台均为垂直建设,不同平台间的数据难以共享,形成了一系列的数据孤岛。随着业务的发展,运营商数据来源、类型越来越多样化,对大数据平台进行整合,实现多源数据融合、全量分析的诉求越来越强烈,传统的建设模式变得捉襟见肘。造成这种现状的一个主要原因就是计算和存储是一体的,无法支撑云化资源池方式的部署。

具体到单一大数据平台,以典型的日志历史库场景为例:为了更好的满足历史数据查询需求,数据保留周期不断延长,但日志的查询总量几乎没有增加。也就是说,存储需求增加了X倍,但计算需求并没有增加。如果还是按照当前的方式建设和扩容方式,存储设备将增加X倍,但同时意味着更多的计算资源将被闲置。而这显然与运营商降本增效的目标背道而驰。数据量在成倍增加的同时,意味着存储Capex和Opex的成倍增加,在日志数据价值未明显提升的情况下,这无疑会给运营商带来新的成本压力。

仔细分析不难看出,这些问题都是源于当前Hadoop存算一体的架构:

·各大数据厂商有自己的HDFS,与计算是紧耦合关系,也就是说大数据平台组件仅能对接自家的组件,并且还要部署在一个节点内,导致了架构的封闭。

·存算一体的另外一个问题,是计算存储需要同步扩容,而大多数的大数据业务,计算和存储的配置是难以预估的,资源需求不均衡,导致大量的计算或存储资源限制。

·还有一个限制,不是存算一体架构直接带来的,而是开源HDFS的技术限制:当前的开源HDFS主要还是用三副本储存数据,导致磁盘的利用率在33%以下,利用率亟待提升。

将存储从计算中解耦出来,各自独立建设和扩展,成为了业界呼声最高的声音。基于存算分离的架构建设融合的大数据资源池,支撑多类型数据和平台,并利用更高效的算法,提升磁盘利用率,成为大数据新的建设热点。

计算存储解耦正当时,FusionStorage大数据存算分离方案应运而生

华为是大数据坚定的推动者和践行者,在Hadoop社区的贡献排名全球3,IT厂商第一;FusionInsight大数据产品连续多年稳居IDC MarketScape中国大数据管理平台厂商领导者象限第一位,已在超过3000家客户成功商用。在新的产业趋势下,华为推出了基于FusionStorage分布式存储的大数据存算分离方案,引领云和AI时代的大数据创新。

华为大数据存算分离方案中,核心和基础是2019年发布的新一代智能分布式存储FusionStorage(2020年已改名为OceanStor 100D)。方案中,以FusionStorage分布式存储替换Hadoop中的本地HDFS存储,计算节点和存储节点分别组成独立的资源池,如下图所示:

图2 FusionStorage大数据存储存算分离方案

这样做的价值是什么?总结一点就是提升效率。可以从下面四个维度去解读存算分离是如何提升效率的:

1、计算不足扩计算,存储不足扩存储

使用存算分离架构后,首先获得的收益就是存储和计算资源的独立扩展,计算不足扩计算,存储不足扩存储。以前面提到的日志历史库场景为例,假设初始计算存储融合方案需要200台一体化服务器,存算分离方案需要80个计算节点+34个存储节点(基于EC技术可获得更高的利用率)。存储周期延长2倍,计算存储融合方案需要扩容400台一体化服务器,存算分离方案仅需要扩容68个存储节点,机柜空间占用可节省50%以上,功耗可节省30%以上。

图3 存算一体和存算分离方案对比

2、云化资源池,提升资源利用率和数据共享效率

传统大数据平台中,由于建设孤岛,集群计算利用率参差不齐,整体资源利用率偏低;同一份数据被多个大数据集群使用时,需要经过多次拷贝,数据共享效率低。

基于FusionStorage大数据存储的存算分离方案,能够将计算资源和存储资源分别云化,以服务化的方式为不同应用提供计算和存储资源,这就使得计算和存储资源都能够得到有效利用。一套大数据存储支持多种应用,不同应用访问同一份数据时,无需数据拷贝,整体分析效率可提升30%以上。

3、弹性EC算法,存储利用率大幅提升

仅仅是存储和计算分离,能够带来灵活扩展和数据共享的优势,但要说到降低TCO,还要凭借FusionStorage大数据存储的弹性EC能力。

图4 FusionStorage大数据存储弹性EC

传统HDFS存储多使用三副本方式进行数据保护,存储利用率仅33%。虽然最新的HDFS引入了EC技术将利用率提升至66%,但由于性能不佳,当前仅能应用到冷存储中。

FusionStorage分布式存储采用了EC算法进行数据保护,和三副本可靠性相当的+2冗余下,最大可支持22+2的EC,存储利用率可达91%,相比三副本方式提升了1.75倍,并且提供更多企业级特性,如热温冷自动分级的能力。

4、原生HDFS接口,无需插件,100%兼容主流大数据平台

FusionStorage分布式存储对外可提供原生HDFS接口,100%兼容FusionInsight、Cloudra、HortonWorks、星环等主流大数据平台,无需在计算侧安装任何插件,无需上层应用修改任何代码即可使用。甚至还可以在现网Hadoop计算融合一体方案的基础上直接扩容,让用户无需数据迁移、无需中断业务即可享受计算存储分离方案带来的诸多收益。

XX运营商:存算分离与本地HDFS新老共存,可用容量提升60%

XX运营商经分大数据,原始采用计算存储融合方式构建,面临扩容问题,如仍采用计算存储融合方式扩容,机房空间无法满足容量要求。经过多轮详细论证,用户采用了FusionStorage存算分离的创新方案,大比例EC替换本地HDFS三副本,可用容量提升了60%。基于ViewFS,FusionStorage分布式存储和本地HDFS实现了新老共存,数据均衡读写,无需升级现网大数据版本或迁移现网数据。

小结

云+AI的智能时代,大数据计算与存储分离已成为大势所趋,FusionStorage分布式存储通过弹性EC、原生HDFS、分级等专业存储能力,构建存算分离的云化存储池,助力客户更好地解决大数据效率问题,应对数据的爆炸式增长。

新闻附件:

查看全部