本文重点讲解IBM上周在Think2018大会上各种公告背后的机器学习(ML)工作,这方面的工作迅速将更进一步加快Watson和PowerAI的训练性能。这刚好引人注目了IBM与NVIDIA的合作伙伴关系,以及NVIDIA针对GPU的NVLink点对点技术。
去年,IBM曾有一篇论文提及了如何在将近一小时的时间内、高达95%的拓展效率以及75%的准确率训练机器学习图像分类模型,使用了和Facebook用作训练一样的数据集。2017年上半年,IBM用于面向高性能计算出来系统的基于POWER8的64位PowerSystemS822LC运营了这一训练基准测试。
这些系统中的每一个都有使用4个NVIDIATeslaP100SXM2相连的GPU,并用于IBM的PowerAI软件平台和DistributedDeepLearning(DDL)。IBM的新论文“SnapMachineLearning”叙述了一种新的IBM机器学习库,可以更加有效地利用能用的网络、内存和异构计算资源,展开机器学习训练任务,也是基于基于一个新的平台——IBMPowerSystemsAC922服务器。IBMAC922通过NVIDIA近期的NVLINK2.0模块,将4个SXM2相连的NVIDIATeslaV100GPU相连到双POWER9处理器。
IBM研究员兼任IBM研究院加快理解基础架构总监HilleryHunter谈及了IBM为SnapSnapML提升性能所作出的贡献:-更加有效地将机器学习训练算法同构到大规模分段的GPU微架构-更加有效地从单一服务器机箱扩展到一个服务器集群-通过最小化异构处置节点(经典处理器和GPU)与动态内存调度器之间的通信,来改良内存管理,该调度器可将数据从处理器推断性地移动到GPU内存(反之亦然)-IBM构建了NVIDIANVLink点对点技术,让IBMPOWER9需要更慢地与NVIDIATeslaV100展开通信,目前这早已在IBMPowerSystemsAC922中反对了。最后结果是,原本必须花费数小时的训练任务,现在在几秒钟内就可以已完成,而且会减少准确性。这是有可能构建的,因为Snap可以更加有效地分配和加快这些任务。Snap将加快多种逻辑和线性重返分析,还包括深度自学任务。
IBM声称用于CriteoLabs在线广告训练数据集的机器学习训练记录比之前公布的记录提升了46倍,训练准确性没任何损失。之前的结果是在一年前公布的,但更加最重要的是,Google用于显处理器的云虚拟机(VM)实例就构建了该结果。Google可以精彩装配60个工作虚拟机实例和29个参数虚拟机实例(总共89个云处理器实例)展开训练。然而,即使在一年前,Google的结果也是一个暴力拓展处理器资源的样板,还有一个问题“为什么要用处理器周期展开训练?”。
在Google发布用于CriteoLabs训练数据集结果的时候,还没收到最初的TensorFlow处理单元(TPU)。或许这就是Google为什么不用于TPU来分解(当时)纪录结果的原因。一年后,IBM仅有用于4台PowerSystemAC922服务器,每台服务器包括2个POWER9处理器和4个NVIDIATeslaV100GPU,就打败了Google的纪录。这个结果是将89个云虚拟机实例与加装在4个服务器机箱(8个处理器和16个GPU)中的总计24个计算出来元件展开较为,速度提升了46倍。
在关于Snap的论文中,IBM还将C9000服务器与基于英特尔处理器的主流服务器(用于CriteoTerabyteClickLog子集——前2亿个训练样例,一个合理大小的子集)展开了必要较为。测试的系统是:-双路PowerSystemAC922服务器,使用的POWER9处理器通过NVLink2.0相连至4个NVIDIATeslaV100GPU,但仅用于其中一个GPU展开较为-使用英特尔至强劲Gold6150处理器的双路槽服务器,通过PCIe3.0连至1个NVIDIATeslaV100GPUIBM测量了通过NVLink2.0相连的AC922系统有效地比特率为68.1GB/s,通过PCIe3.0相连、基于英特尔处理器的系统有效地比特率为11.8GB/s。
对于用于NVLink2.0的AC922系统来说,这是一个5.8x处理器与GPU点对点比起的优势。SnapML可管理处理器和GPU之间的数据移动。
由于用于NVLink的数据传输速度完全慢了6倍,所以Snap可以将处理器和GPU之间的数据拷贝时间隐蔽在处理器和GPU的数据处理时间之后。结果是,用于PowerSystemsAC922服务器的实际测量训练时间加快了3.5倍多,每个系统只用于1个GPU。数据移动严重影响了机器学习的性能;测量横跨NVLink的单个GPU的性能,与横跨PCIe的单个GPU的性能之间的关系,应当扩展到对比用于这些相连的多个GPU。
但是,此测试很好地指出,用于由NVLink相连的IBMPOWER9处理器,比较4个或更加多NVIDIATeslaGPU集群仍不应具备可取决于的优势。该测试还特别强调了对标准机器学习基准测试的市场需求,该基准测试需要在用于现实应用于的服务器之间展开必要较为。
训练时间公里/小时3.5倍,这与整体基准测试的性能领先某种程度最重要。目前还没其他处理器制造商将NVIDIANVLink点对点技术必要构建到处理器套件中,所有竞争的服务器生态系统都依赖PCIe点对点。
必要采访NVLink和SnapML软件架构都有助加快训练。在上周的Think2018大会,IBM和苹果公司宣告发售了IBMWatsonServicesforCoreML。
这让苹果与IBM近4年的合作伙伴关系迈进了一个新的阶段,让苹果iOS软件开发人员需要用于IBM领先的人工智能和机器学习研发环境,以及云训练反对。双方将IBMWatson扩展到在苹果十分顺利的消费设备生态系统上运营机器学习推理小说任务。更加较慢地培训机器学习模型,意味著可以为边缘设备(如基于iOS的智能手机)的推断任务获取改版的模型。
SnapML将在今年晚些时候作为IBMPowerAI技术预览人组的一部分问上市。机器学习的训练时间提升3.5倍,这与整体基准测试的性能领先某种程度最重要。
本文来源:半岛平台-www.mysuggester.com