Ray 2.55 Dodaje Tolerancję Awarii dla Wdrożeń Modeli AI na Dużą Skalę
Joerg Hiller 02 kwi 2026 18:35
Aktualizacja Ray Serve LLM firmy Anyscale umożliwia tolerancję awarii grupy DP dla wdrożeń vLLM WideEP, zmniejszając ryzyko przestoju dla rozproszonych systemów wnioskowania AI.
Anyscale wydało znaczącą aktualizację swojego frameworka Ray Serve LLM, która odpowiada na krytyczne wyzwanie operacyjne dla organizacji prowadzących obciążenia wnioskowania AI na dużą skalę. Ray 2.55 wprowadza tolerancję awarii grupy równoległej danych (DP) dla wdrożeń vLLM Wide Expert Parallelism — funkcję, która zapobiega sytuacji, w której awaria pojedynczego GPU powoduje wyłączenie całych klastrów obsługujących model.
Aktualizacja dotyczy konkretnego problemu w obsłudze modeli Mixture of Experts (MoE). W przeciwieństwie do tradycyjnych wdrożeń modeli, gdzie każda replika działa niezależnie, architektury MoE, takie jak DeepSeek-V3, dzielą warstwy ekspertów na grupy GPU, które muszą działać wspólnie. Gdy jeden GPU w tych konfiguracjach ulega awarii, cała grupa — potencjalnie obejmująca od 16 do 128 GPU — staje się niefunkcjonalna.
Problem Techniczny
Modele MoE dystrybuują wyspecjalizowane sieci neuronowe „ekspertów" na wiele GPU. DeepSeek-V3, na przykład, zawiera 256 ekspertów na warstwę, ale aktywuje tylko 8 na token. Tokeny są kierowane do GPU przechowujących potrzebnych ekspertów za pomocą operacji wysyłania i łączenia, które wymagają, aby wszystkie uczestniczące rangi były sprawne.
Wcześniej awaria pojedynczej rangi przerywała te operacje zbiorowe. Zapytania nadal byłyby kierowane do pozostałych replik w dotkniętej grupie, ale każde żądanie kończyłoby się niepowodzeniem. Odzyskanie wymagało ponownego uruchomienia całego systemu.
Jak Ray To Rozwiązuje
Ray Serve LLM traktuje teraz każdą grupę DP jako jednostkę atomową poprzez szeregowanie grupowe. Gdy jedna ranga ulega awarii, system oznacza całą grupę jako niesprawną, zatrzymuje kierowanie ruchu do niej, rozmontowuje uszkodzoną grupę i odbudowuje ją jako całość. Inne sprawne grupy nadal obsługują żądania przez cały czas.
Funkcja jest domyślnie włączona w Ray 2.55. Istniejące wdrożenia DP nie wymagają zmian w kodzie — framework automatycznie obsługuje kontrole stanu na poziomie grupy, szeregowanie i odzyskiwanie.
Autoskalowanie również respektuje te granice. Operacje skalowania w górę i w dół odbywają się w przyrostach wielkości grupy, a nie pojedynczych replik, zapobiegając tworzeniu częściowych grup, które nie mogą obsługiwać ruchu.
Implikacje Operacyjne
Aktualizacja wprowadza ważną kwestię projektową: szerokość grupy w porównaniu z liczbą grup. Według testów porównawczych vLLM cytowanych przez Anyscale, przepustowość na GPU pozostaje względnie stabilna przy równoległych rozmiarach ekspertów wynoszących 32, 72 i 96. Oznacza to, że operatorzy mogą dostroić się w kierunku mniejszych grup bez poświęcania wydajności — a mniejsze grupy oznaczają mniejsze promienie wybuchu w przypadku awarii.
Anyscale zauważa, że ta odporność na poziomie orkiestracji uzupełnia pracę nad elastycznością na poziomie silnika odbywającą się w społeczności vLLM. RFC vLLM Elastic Expert Parallelism dotyczy tego, jak środowisko uruchomieniowe może dynamicznie dostosowywać topologię w obrębie grupy, podczas gdy Ray Serve LLM zarządza tym, które grupy istnieją i otrzymują ruch.
Dla organizacji wdrażających modele w stylu DeepSeek na dużą skalę praktyczna korzyść jest prosta: awarie GPU stają się incydentami zlokalizowanymi, a nie przestojami obejmującymi cały system. Przykłady kodu i kroki reprodukcji są dostępne w repozytorium GitHub firmy Anyscale.
Źródło obrazu: Shutterstock- ray
- vllm
- infrastruktura ai
- uczenie maszynowe
- obliczenia rozproszone







