SkyRL додає підтримку навчання з підкріпленням для мультимодальних моделей на основі зору та мови
Joerg Hiller 24 квітня 2026 16:33
SkyRL представляє навчання з підкріпленням для моделей зору та мови, забезпечуючи масштабоване навчання для мультимодальних завдань. Дізнайтеся, як це впливає на розвиток ШІ.
SkyRL — бібліотека навчання з підкріпленням (RL), розроблена Sky Computing Lab Університету Каліфорнії в Берклі та Anyscale, — оголосила про підтримку дотренування моделей зору та мови (VLM). Це оновлення дає змогу командам навчати мультимодальні моделі за допомогою робочих процесів навчання з учителем (SFT) і RL, відповідаючи на зростаючий попит на моделі, здатні одночасно обробляти візуальні та текстові дані.
Мультимодальні робочі навантаження, як-от завдання комп'ютерного зору, робототехніки та агентного мислення, вимагають від моделей обробки візуальних вхідних даних, виконання дій і адаптації на основі зворотного зв'язку. Нова функціональність SkyRL робить VLM повноцінним елементом стека навчання, надаючи інструменти для масштабування навчання на локальних GPU або кластерах з кількома вузлами. Це базується на наявній інфраструктурі SkyRL, яка вже підтримує складні агентні завдання, зокрема тести з розробки програмного забезпечення та генерацію Text-to-SQL.
Ключові особливості оновлення
Однією з основних проблем RL для завдань зору та мови є підтримка узгодженості між навчанням і інференсом. SkyRL вирішує проблему дрейфу логарифмічної ймовірності — поширену при обробці візуальних вхідних даних — шляхом впровадження розподіленого конвеєра. Використовуючи стек інференсу vLLM як єдине джерело достовірності, платформа забезпечує узгодженість токенізації та підготовки вхідних даних у всіх робочих процесах.
Такий підхід не лише стабілізує навчання, а й дає змогу незалежно масштабувати CPU-воркери для обробки вхідних даних, забезпечуючи відсутність вузьких місць у пропускній здатності GPU. Оновлення також підтримує готові рецепти для таких завдань, як навігація Maze2D і Geometry-3k — набір даних, що вимагає візуального геометричного мислення. Перші результати продемонстрували покращену стабільність навчання навіть при більших розмірах моделей, зокрема Qwen3-VL 8B Instruct.
Вплив на розвиток ШІ
SkyRL позиціонує себе як основну платформу для масштабованого RL та SFT у навчанні мультимодальних моделей. Завдяки інтеграції з такими інструментами, як Tinker API, користувачі можуть розгортати робочі процеси RL на власній інфраструктурі, зменшуючи залежність від зовнішніх провайдерів. Це особливо актуально з огляду на зростаючі обчислювальні вимоги до навчання великих моделей.
Ці досягнення з'являються в той час, коли мультимодальні системи ШІ користуються великим попитом для реальних застосувань. Завдання, що вимагають послідовного прийняття рішень, візуального мислення та адаптивності — зокрема автономна навігація та динамічна взаємодія з інструментами — суттєво виграють від цього. Модульна архітектура SkyRL також підтримує швидке прототипування, дозволяючи дослідникам і розробникам експериментувати з новими алгоритмами та парадигмами навчання.
Погляд у майбутнє
Дорожня карта SkyRL включає такі функції, як упаковка послідовностей, підтримка бекенду Megatron і навчання на довгому контексті з паралелізмом контексту. Очікується, що ці оновлення додатково розширять можливості платформи для обробки складних агентних робочих навантажень. Для розробників, які прагнуть зануритися у навчання VLM, SkyRL пропонує посібники та документацію на допомогу у старті.
Оскільки галузь ШІ дедалі більше впроваджує мультимодальні системи в практичні сценарії використання, здатність ефективно навчати та дотреновувати такі моделі стане ключовою конкурентною перевагою. Останнє оновлення SkyRL відображає його прихильність до перебування на передньому краї цієї еволюції, забезпечуючи масштабований і модульний фреймворк для передових досліджень і розгортання RL.
Джерело зображення: Shutterstock- skyrl
- навчання з підкріпленням
- моделі зору та мови
- навчання ШІ





