Из ТГ канала

🫐 Год заканчивается, а новые продукты нет!
Apple релизнули в OpenSource инструмент для ускорения моделей в продакшне в колабе с NVIDIA.
🎄 Спросили у нашего DS-разработчика Михаила, как эта штука встраивается в pipeline среднестатистической большой компании, применяющей LLM'ки в продакшне? И вот, что он рассказал:
Если кратко, то ReDrafter позволяет еще сильнее ускорить/оптимизировать скорость предсказания моделей. У него есть Teacher-модель (тяжелая умная модель) и Student-модель (проще, но быстрее). Teacher проверяет Student, а он, в свою очередь, генерит несколько токенов.
Мы рассматриваем pipeline как цепочку действий:
- получили запрос пользователя через условную API;
- запроцессили его под какой-то формат (мб добавили больше инфы);
- сгенерировали предсказание модели (тут как раз и применяем ReDrafter);
- провели постпроцессинг ответа модели (отформатировали ответ для передачи пользователю).
А теперь посмотрим, что изменилось.
Жизнь до ReDrafter:
- запрос пользователя → preprocessing;
- токенизация → генерация (1 токен за шаг);
-postprocessing → ответ.
Жизнь с ReDrafter:
- запрос пользователя → preprocessing;
- токенизация → Student-модель генерирует сразу N токенов;
- Teacher-модель проверяет и фильтрует некорректные предсказания;
- postprocessing → ответ.
🙂 Artificial Intelion
Новости AI
#AI
#NVIDIA
#Apple
#ReDrafter
Рекомендуем прочесть:
- Как посчитать VRAM для LLM: подробный гайд по расчету видеопамяти для моделей машинного обучения
- Tesla A100 40GB vs A100 80GB: Как выбрать GPU для ИИ, LLM и Data Science
- Что такое GPU сервер и как его арендовать?
- Tesla A10 vs RTX 3090 — оптимальный выбор GPU для ваших нейросетей
- Зачем вам нужна Tesla A100 80 ГБ — и почему в «Интелион Облако» она раскрывается на максимум