Serwery NVIDIA GB200 przyspieszają chińskie modele AI 10 razy… w testach poza Chinami

itreseller.com.pl 2 tygodni temu

Chińskie przedsiębiorstwa Moonshot AI oraz DeepSeek potwierdziły właśnie, iż ich modele AI osiągnęły choćby 10-krotny wzrost prędkości działania na serwerach NVIDIA GB200 NVL72. Ponieważ amerykańskie restrykcje sprzedaży najnowszego sprzętu do Chin obowiązują od października 2024 roku, to testy odbyły się na platformach chmurowych poza Chinami.

Moonshot AI przetestował swój model Kimi K2 Thinking, a DeepSeek model DeepSeek-R1 na serwerach NVIDIA GB200 NVL72 wyposażonych w 72 procesory graficzne Blackwell. Wyniki pokazały 10-krotny wzrost prędkości inference w porównaniu z poprzednią generacją serwerów HGX H200. Model Mistral Large 3, rozwijany w Europie, osiągnął podobne rezultaty.​ Kluczem do takiej wydajności jest architektura mixture-of-experts (MoE), która dzieli zapytania AI na mniejsze części obsługiwane przez wyspecjalizowane podmodele. NVIDIA zoptymalizowała komunikację między nimi dzięki technologii NVLink Switch, eliminując opóźnienia i zwiększając szybkość działania całego systemu.​

Ze względu na ograniczenia eksportowe USA, które od października 2024 roku zakazują sprzedaży rozwiązań NVIDIA GB200 do Chin, testy przeprowadzono na serwerach znajdujących się w chmurach AWS, Google Cloud i CoreWeave poza granicami Chin. W Chinach dostępne są okrojone wersje GPU, takie jak NVIDIA H20, oferujące około 50–70% mocy GB200. Równocześnie chińskie firmy rozwijają własne jednostki AI, np. procesory Huawei Ascend oraz DeepSeek Fire-Fly, by uniezależnić się od zagranicznego sprzętu.​ Najnowsze dane pozostają więc raczej w ramach ciekawostki.

Popularność architektury MoE rośnie – według NVIDII ponad 60% nowych modeli open-source korzysta z tej technologii, która zmniejsza zużycie zasobów podczas treningu AI. Serwery GB200 pozostają jednak najważniejsze w fazie inference, czyli obsługi zapytań użytkowników, dzięki swojej wysokiej wydajności i efektywności energetycznej. Nic więc dziwnego, iż konkurencja nie śpi – AMD planuje wypuszczenie podobnych serwerów w 2026 roku, także firma Cerebras oferuje podobne, alternatywne rozwiązania do obsługi AI.​

Idź do oryginalnego materiału