SkyRL додає підтримку навчання з підкріпленням для мультимодальних моделей на основі зору та мови

Joerg Hiller 24 квітня 2026 16:33

SkyRL представляє навчання з підкріпленням для моделей зору та мови, забезпечуючи масштабоване навчання для мультимодальних завдань. Дізнайтеся, як це впливає на розвиток ШІ.

SkyRL Adds Vision-Language RL Support for Multimodal Models

SkyRL — бібліотека навчання з підкріпленням (RL), розроблена Sky Computing Lab Університету Каліфорнії в Берклі та Anyscale, — оголосила про підтримку дотренування моделей зору та мови (VLM). Це оновлення дає змогу командам навчати мультимодальні моделі за допомогою робочих процесів навчання з учителем (SFT) і RL, відповідаючи на зростаючий попит на моделі, здатні одночасно обробляти візуальні та текстові дані.

Мультимодальні робочі навантаження, як-от завдання комп'ютерного зору, робототехніки та агентного мислення, вимагають від моделей обробки візуальних вхідних даних, виконання дій і адаптації на основі зворотного зв'язку. Нова функціональність SkyRL робить VLM повноцінним елементом стека навчання, надаючи інструменти для масштабування навчання на локальних GPU або кластерах з кількома вузлами. Це базується на наявній інфраструктурі SkyRL, яка вже підтримує складні агентні завдання, зокрема тести з розробки програмного забезпечення та генерацію Text-to-SQL.

Ключові особливості оновлення

Однією з основних проблем RL для завдань зору та мови є підтримка узгодженості між навчанням і інференсом. SkyRL вирішує проблему дрейфу логарифмічної ймовірності — поширену при обробці візуальних вхідних даних — шляхом впровадження розподіленого конвеєра. Використовуючи стек інференсу vLLM як єдине джерело достовірності, платформа забезпечує узгодженість токенізації та підготовки вхідних даних у всіх робочих процесах.

Такий підхід не лише стабілізує навчання, а й дає змогу незалежно масштабувати CPU-воркери для обробки вхідних даних, забезпечуючи відсутність вузьких місць у пропускній здатності GPU. Оновлення також підтримує готові рецепти для таких завдань, як навігація Maze2D і Geometry-3k — набір даних, що вимагає візуального геометричного мислення. Перші результати продемонстрували покращену стабільність навчання навіть при більших розмірах моделей, зокрема Qwen3-VL 8B Instruct.

Вплив на розвиток ШІ

SkyRL позиціонує себе як основну платформу для масштабованого RL та SFT у навчанні мультимодальних моделей. Завдяки інтеграції з такими інструментами, як Tinker API, користувачі можуть розгортати робочі процеси RL на власній інфраструктурі, зменшуючи залежність від зовнішніх провайдерів. Це особливо актуально з огляду на зростаючі обчислювальні вимоги до навчання великих моделей.

Ці досягнення з'являються в той час, коли мультимодальні системи ШІ користуються великим попитом для реальних застосувань. Завдання, що вимагають послідовного прийняття рішень, візуального мислення та адаптивності — зокрема автономна навігація та динамічна взаємодія з інструментами — суттєво виграють від цього. Модульна архітектура SkyRL також підтримує швидке прототипування, дозволяючи дослідникам і розробникам експериментувати з новими алгоритмами та парадигмами навчання.

Погляд у майбутнє

Дорожня карта SkyRL включає такі функції, як упаковка послідовностей, підтримка бекенду Megatron і навчання на довгому контексті з паралелізмом контексту. Очікується, що ці оновлення додатково розширять можливості платформи для обробки складних агентних робочих навантажень. Для розробників, які прагнуть зануритися у навчання VLM, SkyRL пропонує посібники та документацію на допомогу у старті.

Оскільки галузь ШІ дедалі більше впроваджує мультимодальні системи в практичні сценарії використання, здатність ефективно навчати та дотреновувати такі моделі стане ключовою конкурентною перевагою. Останнє оновлення SkyRL відображає його прихильність до перебування на передньому краї цієї еволюції, забезпечуючи масштабований і модульний фреймворк для передових досліджень і розгортання RL.

Джерело зображення: Shutterstock