AI时代最根本的是什么?是算力。
随着AI模型、训练数据规模的不断膨胀,对于算力的渴求也是空前高涨,没有尽头。
强大的AI算力可以来自CPU,可以来自GPU,可以来自FPGA,可以来自ASIC,各有各的优势,其中的王者毋庸置疑就是GPU加速器。
如今的AI GPU加速器市场,呈现着明显的“一家独大、两家追赶”的态势:NVIDIA有着无可比拟的市场地位,尤其是软件生态遥遥领先;AMD、Intel都有各自的独特方案,也都有了不俗的成果。
NVIDIA的大家都比较熟了,Intel的才刚刚起步,今天我们重点聊聊AMD Instinct系列加速器,看看它能不能真正挑战NVIDIA。
毕竟,任何市场领域一家独大,都不是什么好事儿,都需要你来我往的竞争,才是对用户利益、对行业发展最为有利的。
最新一代的Instinct MI300系列再次实现跨越,并开辟了全新的方向,有了两款不同的产品。
其中,MI300A是全球首款面向HPC、AI的APU加速器,基于AMD的成熟经验,开创了CPU、GPU合体加速的先河。
它采用了先进的Chiplet芯粒设计,一共有多达13颗小芯片,其中计算部分9颗,都是5nm工艺制造,基底和扩展部分4颗,都是6nm工艺制造,集成多达1460亿个晶体管。
CPU部分为Zen 4架构,三组CCD共24个核心,GPU为最新的CDNA3架构,还有128GB大容量的HBM3高带宽内存,可以为CPU、GPU所共享。
MI300A使用了标准的Socket独立封装,因此不再需要单独的CPU处理器,自己就能组建一整套加速平台,大大简化系统设计。
MI300X则是纯GPU加速器,相当于把MI300A里的CPU模块也替换成GPU,同时将HBM3内存容量增加到史无前例的192GB,带宽达到惊人的5.2TB/s。
整体集成的晶体管数量,也达到了同样史无前例的1530亿个。
作为对比,NVIDIA最新的H100加速器也只有800亿个晶体管,只有MI300X的一半多点,不在一个层级上。
为方便客户部署,AMD全新设计了Instinct平台,基于行业标准的OCP计算标准,单系统可集成最多八块OAM形态的MI300X,HBM3内存总容量达1.5TB。
Instinct MI300系列也已经开始投入商用,比如美国劳伦斯利弗莫尔实验室的新一代超级计算机EI Capitan,已开始安装MI300A加速器,搭档第四代AMD EPYC处理器。
它将在明年上线,预计性能超过200亿亿次浮点计算每秒,也就是可以超越当今第一的Frontier。
MI300X的强劲性能和超高能效,使之可以轻松应对当今AI对强算力的需求,搞定各种几百上千亿参数的大语言模型,Falcon、GPT-3、PaLM 2、PaLM等等都不在话下。
甚至,MI300X单卡就能运行800亿参数的大语言模型,尤其是得益于超大容量的HBM3内存,大模型可以完全在HBM3内存中运行,无需动用系统内存,从而省去数据传输与拷贝,大大降低延迟、提升性能。
相比于 NVIDIA 80GB HBM内存加速器,运行同样参数规模模型,MI300X所需要的GPU数量也更少,自然成本更低。
更关键的是,NVIDIA H100/A100加速器过于火爆,价格一路飙升,比如应用最多的H100目前已经要到4.5万美元一块,相当于30多万人民币,新一代的A100也需要十几万。
甚至,就算你舍得花钱,也不一定买到。负责代工的台积电也承认,H100/A100的紧缺状况还要持续大约一年半之久。
相比之下,AMD的一贯优良传统恰恰就是高性价比,正好可以给客户提供更丰富的选择空间,而不是吊在一棵树上。
当然了,作为AI加速器,不但需要硬件设计强大,更需要足够高效的开发平台、足够优化的软件和应用适配,才能彻底释放潜力。
NVIDIA在这方面无疑做得相当透彻,这也是其赢得开发者和市场的一大关键。
AMD ROCm开发平台同样历史悠久,只是在技术特性、生态适配上一直有待进一步拓展,而今在AI的驱动下正在努力追赶。
比如新一代ROCm 5.x版本,针对HPC、AI做了全方位优化,支持各种流行的AI模型、框架和算法,诸如PyTorch、TensorFlow、ONNX、OpenXLA、Triton、DeepSpeed……方便开发者根据自己的实际需要选择,灵活满足不同场景。
值得一提的是,现在部署MI210,AMD还会提供软件层面的搭建支持,让客户的安装、使用更加简单、省心。
说到这里顺带一提,除了高性能计算GPU方面,AMD还正在不断释放消费级游戏GPU的AI潜力,比如大火的文生图应用Stable Diffusion,已经可以在Windows系统下跑在AMD Radeon显卡上。
如今,你可以在Automatic1111(Xformer)下使用微软的Microsoft Olive(一个可用于转换、优化、量化和自动调整模型以通过DirectML等ONNX运行时执行提供程序获得最佳推理性能的Python工具),来启用Stable Diffusion,从而在Windows系统上通过Microsoft DirectML,获得显著的加速。
AMD也一直在与微软合作优化AMD硬件上的Olive路径,通过微软DirectML API,以及用于DirectML的AMD用户模式驱动程序的ML层加速,从而允许用户访问AMD GPU的AI功能和性能。
按照AMD实测的数据,RX 7900 XTX在默认PyTorch路径上运行,每秒可提供1.87次迭代,而换到Microsoft Olive的优化模型上运行,每秒可提供18.59次迭代,也就是性能提升多达9.9倍!
相信像这样的生态适配和合作,未来势必也会越来越多地体现在AMD Instinct上。
最后,AMD Instinct还有一个任何对手都无法匹及的优势,那就可以是背靠完整的AI产品矩阵,提供一整套一站式解决方案。
尤其是高性能的EPYC处理器,经过几年的迭代,计算性能已经遥遥领先,新一代EPYC 9004系列已经升级到Zen 4架构、96核心192线程、12通道DDR5内存、160条PCIe 5.0总线,还衍生出了Zen 4c高能效核心、3D V-Cache 1GB+缓存等不同版本。
事实上,当今的众多高性能计算平台尤其是超级计算机,都部署了AMD EPYC、AMD Instinct这一对黄金组合,效果拔群,在各种科学与学术研究中贡献力量。
总的来说,在这个AI蓬勃发展的时代,对于强大算力的需求只会越发高涨,其中蕴含着前所未有的机遇。
NVIDIA的强大和领先毋庸置疑,软硬件结合更是做得十分到位,但一花独放不是春、百花齐放春满园,我们同时也非常希望AMD、Intel能把握住这个风口,拿出同样优秀的方案,让开发者和用户受益。
AMD更是尤为值得期待。Instinct系列加速器发展多年,屡屡实现创新突破,性能上绝对不是问题,能在超算的世界里脱颖而出就是明证,只要在开发和生态上多下一番功夫,势必更受欢迎。
同时,AMD还有着全套解决方案的支撑,特别是强大的EPYC处理器现在让Intel都不得不仰视,可以和Instinct珠联璧合,再加上一贯以来的高性价比,前途必然是相当光明的。
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!