Год заканчивается, а новые продукты нет!

Из ТГ канала

🫐 Год заканчивается, а новые продукты нет!

Apple релизнули в OpenSource инструмент для ускорения моделей в продакшне в колабе с NVIDIA.

🎄 Спросили у нашего DS-разработчика Михаила, как эта штука встраивается в pipeline среднестатистической большой компании, применяющей LLM'ки в продакшне? И вот, что он рассказал:

Если кратко, то ReDrafter позволяет еще сильнее ускорить/оптимизировать скорость предсказания моделей. У него есть Teacher-модель (тяжелая умная модель) и Student-модель (проще, но быстрее). Teacher проверяет Student, а он, в свою очередь, генерит несколько токенов.

Мы рассматриваем pipeline как цепочку действий:

- получили запрос пользователя через условную API;

- запроцессили его под какой-то формат (мб добавили больше инфы);

- сгенерировали предсказание модели (тут как раз и применяем ReDrafter);

- провели постпроцессинг ответа модели (отформатировали ответ для передачи пользователю).

А теперь посмотрим, что изменилось.

Жизнь до ReDrafter:

- запрос пользователя → preprocessing;

- токенизация → генерация (1 токен за шаг);

-postprocessing → ответ.

Жизнь с ReDrafter:

- запрос пользователя → preprocessing;

- токенизация → Student-модель генерирует сразу N токенов;

- Teacher-модель проверяет и фильтрует некорректные предсказания;

- postprocessing → ответ.

🙂 Artificial Intelion

Новости AI

#AI

#NVIDIA

#Apple

#ReDrafter

Рекомендуем прочесть:

Читайте в Telegram

В нашем канале мы анализируем и тестируем LLMs, следим за трендами и рассказываем, как AI меняет мир.

Перейти в канал

Давным давно...

Как подключиться к серверу в Интелион Облако? Мы сняли два видео, где пошагово показываем, как реально просто подключиться к своему серверу в Интелион Облаке через два протокола: ☹️ SSH-подключение Показываем, как быстро и безопасно войти на сервер из терминала. Разбираемся с ключами, логином и настраиваем первый вход без головной боли. ☹️ VNC-доступ Если нужен графический интерфейс: как открыть удалённый рабочий стол, зайти в окружение и работать с GPU «вживую», как на своём ПК. Работа с нами — буст для ваших бизнес-проектов: ☹️ Ускорение вычислений для обучения LLM (несколько часов на сервере вместо недель на собственном ПК) ☹️ GPU-серверы с большим объёмом VRAM (>24 Gb) для работы с большими моделями и Computer Vision ☹️ Молниеносный анализ больших данных с Dask и Apache Spark ☹️ Поддержка генеративных моделей Stable Diffusion и Flux 1 Dev Арендовать сервер: intelion.cloud

Давным давно...

😂 AI Talks состоялся! Неделю назад провели насыщенный разговор с экспертами Интелион Облако — Антоном Крупновым (Product Manager) и Вероникой (Marketing Manager). Обсудили, как нейросети меняют нашу жизнь и работу, разобрали личные кейсы и поделились инструментами, которые уже сегодня экономят нам часы, дни и даже недели! В выпуске: ☹️Как начать работать с AI и какие инструменты выбрать? ☹️Примеры решения задач с помощью ChatGPT и Cursor. ☹️Будущее работы и бизнеса глазами тех, кто уже живёт в мире нейросетей. ☹️ Запись доступна на Rutube и ВК Видео! #AITalks #Intelion #Нейросети #ИИ 🙂 Artificial Intelion

Давным давно...

Где найти GPU для ML, чтобы было быстро и без переплат? Когда нейросеть уже написана, дата-сет подготовлен, а железо внезапно закончилось — мы готовы помочь. В Интелион Облако вы можете быстро и просто арендовать самые востребованные видеокарты для ваших AI-проектов: Почему стоит запускать GPU именно в Intelion.cloud? ☹️ Готовы к старту за 2 минуты GPU уже ждут в стойке — вам останется лишь подключиться. ☹️ Прозрачные и понятные цены Без скрытых платежей, переплат и комиссий. ☹️ Гибкие конфигурации Сервер под ваши задачи — от одиночного GPU до мульти-кластеров с полной инфраструктурой. ☹️ Иммерсионное охлаждение Максимальная производительность GPU без троттлинга. ☹️ Техподдержка всегда на связи Инженеры, которые разбираются в ML-стеке и GPU. ☹️ Дата-центры в РФ Ускорьте обучение своей LLM - Intelion.cloud #ии #нейросети #gpuсервер #llm 🙂 Artificial Intelion

Читать все