(퍼플렉시티가정리한기사)NVIDIA는화요일에발표된MLPerfTrainingv5.1벤치마크에서완전한석권을달성하여7개테스트모두에서가장빠른훈련시간을기록했으며,모든카테고리에서결과를제출한유일한플랫폼이되었습니다.이회사는5,120개의BlackwellGPU를사용하여Meta의Llama3.1405B모델을단10분만에훈련시켜새로운업계기록을세웠으며,이는이전최고기록보다2.7배빠른속도입니다.11월12일MLCommons에서발표한이번결과는MLPerfTraining역사상어떤회사도4비트FP4정밀도를사용한첫번째사례로,이획기적인기술은동일한수의GPU에서이전세대Hopper아키텍처보다최대4배의성능을제공했습니다.NVIDIA의독점NVFP4포맷은엄격한정확도요구사항을유지하면서8비트FP8보다3배빠른속도로계산을가능하게합니다.블랙웰울트라데뷔하다BlackwellUltra기반GB300NVL72랙규모시스템이이번라운드에서MLPerfTraining에처음등장했으며,표준BlackwellGPU보다1.5배높은NVFP4처리량과어텐션레이어를위한2배의softmax가속을제공하는향상된TensorCore를특징으로합니다.이시스템은GPU당279GB의HBM3e메모리를탑재하고NVIDIAQuantum-X800InfiniBand를통해업계최초의800Gb/s네트워킹플랫폼으로연결됩니다.NVIDIA는또한새로도입된두가지벤치마크인Llama3.18B와FLUX.1이미지생성에서성능기록을세웠습니다.이회사는512개의BlackwellUltraGPU를사용하여5.2분만에Llama3.18B를학습시켰으며,FLUX.1에대한결과를제출한유일한플랫폼으로서1,152개의BlackwellGPU로12.5분의학습시간을달성했습니다.다양한경쟁분야MLPerfTrainingv5.1라운드에는20개조직이참여하여12개의서로다른하드웨어가속기를탑재한65개의고유한시스템을제출했습니다.AMD는새로운InstinctMI355X및MI350XGPU를선보였으며,AMD는단일노드접근성을위해설계된새로운Llama3.18B벤치마크개발을주도했습니다.AMD에따르면,MI355XGPU성능은Llama3.18B테스트에서NVIDIA의Blackwell플랫폼대비5-6%이내의차이를보였습니다.전체제출물의거의절반이멀티노드구성이었으며,이는전년도라운드대비86%증가한수치입니다.Datacrunch,UniversityofFlorida,Wiwynn이처음으로참여했으며,Dell,HPE,Lenovo와같은기존참가자들도함께했습니다.벤치마크업데이트에서는레거시테스트를최신AI워크로드로대체했습니다:언어모델의경우BERT를Llama3.18B로,이미지생성의경우StableDiffusionv2를FLUX.1로교체했습니다.
1439 조회
0 추천
2025.11.13 등록