今天,我们正在进入大资料的新时代。在刚刚结束的2019数博会上,专家指出人类正式进入了资料时代,数字经济成为当今时代发展最快创新最活跃,辐射最广泛的经济活动,正在深刻的改变着人类的生产和生活方式。2018年我国数字经济规模达到了31.3万亿元,占GDP比重达34.8%。更进一步,5G、人工智能、大资料、移动互联网、物联网和云端计算等新技术正协同融合点燃新时代引擎,为推动数字经济提供新动能。
作为数字经济的“燃料”,大资料中有大智慧,这是自2015年首届数博会就已经在全社会形成了广泛的共识。然而,从大资料中挖掘大智慧却并不容易。以人工智能为代表的分散式计算,被视为大智慧的普惠型挖掘方式。近年来,中国人工智能产业的发展迅速高于全球平均水平,但用好人工智能、真正发挥人工智能的商业价值却难。其中一个重要的原因,是承载人工智能计算的传统资料中心网络,正在遭遇AI演算法的重大挑战。
今年华为释出了业界首款面向AI时代的资料中心交换机CloudEngine 16800,推动了资料中心的网络资料流量交换从云时代向AI时代的演进。基于CloudEngine系列交换机内嵌高效能AI芯片和独创的iLossless智慧无损交换演算法,华为推出AI Fabric智慧无损资料中心网络解决方案,实现了零丢包、低时延和高吞吐的极致网络效能,100%发挥AI算力,全面解决AI演算法带来的资料网络交换挑战。2019年4月,华为CloudEngine交换机荣获Gartner Peer Insights平台资料中心网络“客户之选”称号。这是Gartner在分析了来自拥有购买、实施和运营相关解决方案的客户的评论后得出的结论。
(华为资料中心交换机CloudEngine 16800系列)
通过AI人工智能挖掘海量资料的智慧,这是AI时代的最重要主题。人工智能和机器学习,从2016年AlphaGo的全球热潮,到各大技术厂商和云服务商推出各种AI演算法、计算服务、软硬件装置和开源框架,已经在2019年形成了一个完整的商业化体系。华为GIV预测,到2025年,企业对AI的采用率将达到86%。越来越多的企业将AI视为新商业智慧的来源,利用AI协助决策、重建客户体验、重塑商业模式和生态系统,推动数字化转型。
AI要发挥和创造真正的商业价值,资料、演算法和算力是三大关键挑战,而企业的资料中心则是大智慧的“挖掘机”和“智慧+”引擎。传统企业资料中心,主要是处理事务型计算,特别是以ERP、CRM、资料仓库等为代表的企业级应用。而随着AI计算大量进入到企业的资料中心,资料中心正从快速业务处理型向高效资料处理型转型。而计算、储存与网络,这传统资料中心“三大件”,就面临重大的转型挑战,其中的网络是最难也是最关键的挑战。
实际上,随着传统资料中心的云化,即分散式架构化,为了满足人工智能分散式海量计算的需求,除了新型服务器和储存技术外,还需要满足海量计算的分散式资讯互动需求,对通讯量和通讯效能的需求变得非常苛刻。Facebook曾对分散式机器学习平台Caffe2进行过测试,采用最新的多GPU服务器加速,8台服务器的计算任务就导致100Gbps Infiniband网络出现了资源不足而难以实现多节点的线性计算加速效果,网络效能正在严重制约人工智能演算法发挥效用,更不用说实时人工智能计算了。
当前,随着资料中心工作负载的显著变化,资料中心的网络已经进行了很多技术变革,包括:低时延、高带宽的25GbE、40 GbE和100 GbE交换机以及更高速率的400 GbE交换机;升级到更高呑吐量的服务器网络卡;InfiniBand、以太网、RDMA等各种网络通讯协议,混合适应不同工作负载要求;显式拥塞通知(ECN)、流量控制(PFC)、以太网资料中心桥接(DCB)扩充套件等演算法以改进交换机的缓冲资源管理,以及RoCE协议等支援零丢包讯息传递等;此外还有虚拟化、SDN软件定义网络、基于AI/ML优化的自动化等。
总体来说,资料中心作为AI“挖掘机”,其网络技术生态已经陆续发生了变革,随着云端计算以及AI/ML等新演算法及应用的兴起,需要整体的网络技术生态管理,才能最大发挥AI演算法,让AI创造真正的商业价值。
(深圳机场)
为了满足AI时代的资料高效处理需求,应用分散式架构挑战,下一代资料中心网络具有三大核心诉求:零丢包、低时延、高呑吐。基于CloudEngine系列交换机,华为开发了面向人工智能时代资料中心的AI Fabric智慧无损资料中心网络解决方案,以满足AI对于资料中心网络通讯的变革要求。AI Fabric依靠AI智慧芯片以及独特的iLossless智慧无损交换演算法,实现了零丢包、高呑吐和超低时延,为AI构建了一个统一融合的高效资料中心网络。
CloudEngine系列是华为公司面向下一代资料中心推出的“云和AI”级高效能交换机,包括业界首款面向AI时代的资料中心交换机CloudEngine 16800系列、高配置的旗舰级核心交换机CloudEngine 12800系列,高效能的汇聚/接入交换机CloudEngine 8800/7800/6800/5800系列,以及虚拟交换机CloudEngine 1800V。CloudEngine系列软件平台基于华为新一代的VRP8操作系统,支援丰富的资料中心和园区业务特性。
CloudEngine 16800全面升级了硬件交换平台,突破超高速讯号传输、超强散热、高效供电等多项技术难题,单槽位可提供业界最高密度48埠400GE线卡,单机提供业界最大的768埠400GE交换容量,交换能力高达业界平均的5倍,满足AI时代流量倍增需求,同时单位元功耗下降50%、更绿色节能。而基于内建的AI芯片,CloudEngine 16800可大幅度提升装置级的智慧化水平,让交换机具备本地推理和实时快速决策的能力,可构建分散式AI运维架构,实现秒级故障识别和分钟级故障自动定位,加速自动驾驶网络的到来。
基于CloudEngine系列特别是CloudEngine 16800,华为AI Fabric独创的演算法,在保证零丢包的基础上,可实现最高吞吐和最低时延。业界通用的无损网络技术,难以同时满足零丢包、低时延和高吞吐这三个要求,因为这三个指标相互影响,存在着“跷跷板”效应。而在零丢包、低时延和高吞吐这三个指标背后,核心技术就是拥塞控制演算法。华为独创的iLossless智慧无损演算法,通过动态ECN拥塞水线、Fast CNP快速拥塞反馈、VIQ虚拟输入伫列等,最大程度满足了三个核心要求。
面对动态流量和海量引数的挑战,华为一方面投入研究团队分析各种应用,提炼出流量模型特征,另一方面通过交换机整合AI芯片实时采集流量特征和网络状态,基于AI演算法、本地实时决策以及动态调整网络引数配置,合理高效利用交换机快取、实现零丢包。加上智慧分析平台FabricInsight,基于全域性采集到的流量特征和网络状态资料,结合AI演算法,对未来流量模型进行预测,从全域性角度实时校正网络卡和网络的引数配置。
根据第三方权威测试机构EANTC(欧洲高阶网络测试中心,被公认为全球领先的电信独立测试中心之一)在2018年6月的测试,AI Fabric可以在HPC高效能运算场景下,最高降低44.3%的计算时延,在分散式储存场景下提升25%的IOPS能力,在所有场景保证网络零丢包。华为AI Fabric通过了EANTC的高效能资料中心基准测试,支援无丢包的讯息传递和档案储存用例,高效地处理时延敏感的应用程序。在HPC和DFS基准测试中,华为AI Fabric在启用动态ECN时成功处理了资料中心混合流量,此外该解决方案对网络链路故障具有良好的弹性恢复能力。
另一家国际权威评测机构AvidThink在2019年出具的一份研究报告,指出华为AI Fabric是一种为资料中心以太网架构增值的创新方案,通过利用交换机内现有的资源,以及智慧和自适应的管理技术来提升效能,包括利用AI来提供快速的故障解决,也受将到许多资料中心运营商的欢迎。AvidThink认为,如今的资料中心装置存在着很多的引数调优,人们很难找到正确的设定以优化资料中心负载。而随着负载的演变,人们更加不可能跟踪这些演变并不断优化Fabric设定。华为CloudEngine 16800核心交换机,通过嵌入式AI芯片和机器学习,在整个Spine-leaf(“脊-叶”)资料中心网络中自动调整端到端的效能,使用测试收集的资料构建初始模型,并根据客户的负载情况进行调整,最终提供最佳的端到端的无损效能。
2019年2月,华为委托国际权威测试机构Tolly,在三大应用场景(HPC高效能运算、分散式AI训练以及分散式储存)中,对华为AI Fabric解决方案进行了效能评估,并与思科Nexus交换机组网的效能进行了对比。华为和思科的方案均基于RDMA over Converged Ethernet(RoCEv2),在所有三大场景中,华为AI Fabric解决方案的效能均优于思科。
进入2019年,人工智能应用和数字经济建设面临着提质增速见实效的换档升级阶段。随着全社会积聚了越来越多的大资料,如何高效用好大资料和人工智能,为数字经济和数字化转型创造真正的价值,这就需要新的AI高速路。而华为新一代的CloudEngine网络交换装置以及AI Fabric解决方案,为AI时代创造速度新高度,帮助企业从大资料中真正挖掘大智慧。(文/宁川)