Fine-tuning моделей до 30B параметров через QLoRA и полное обучение моделей до 13B в FP16. 48 ГБ VRAM позволяют работать с большими батчами и длинными контекстами без выгрузки на CPU.
Тензорные ядра 4-го поколения с поддержкой FP8 обеспечивают до 660 TFLOPS — в 2× больше, чем у RTX 3090.
Запуск LLaMA 70B в 4-bit квантизации целиком в VRAM или нескольких моделей 7B–13B одновременно. 48 ГБ памяти снимают ограничения стандартной RTX 4090 на 24 ГБ.
16 384 ядра CUDA и архитектура Ada Lovelace обеспечивают высокую скорость генерации токенов при низкой стоимости за запрос.
SDXL, FLUX и видеомодели без квантизации и с высоким разрешением. 48 ГБ VRAM позволяют загрузить базовую модель, refiner и LoRA-адаптеры одновременно без перезагрузки.
RTX 4090 генерирует изображение SDXL 1024×1024 за 6 секунд — быстрее любой другой потребительской карты.
Другая задача? RTX 4090 48GB — мощная карта на Ada Lovelace, которая справится и с ней.
48 ГБ GDDR6X и Ada Lovelace — помещаются даже 70B-модели в квантизации.
Вот что помещается на одну карту.
Инференс и дообучение в FP16. ~95-150 tok/s на RTX 4090 (Ollama / llama.cpp).
Инференс в FP16 без квантизации — невозможно на 24 ГБ. ~59 tok/s (Ollama). Рассуждения уровня o1.
INT8 на 48 ГБ вместо INT4 на 24 ГБ — выше качество. Конкурирует с моделями 70B.
INT8 помещается на 48 ГБ (невозможно на 24 ГБ). Лидер для кода и мультиязычных задач, ~34 tok/s.
Эталонная 70B в INT4 помещается на 48 ГБ — невозможно на 24 ГБ. ~12 tok/s.
Полная модель-рассуждение (MoE). Требует кластер из 16+ карт — поможем настроить.
Лидер open-source генерации. 12B параметров, ~15 сек/изобр. 48 ГБ — запас для LoRA-дообучения.
Новейшая SD-модель. ~4 сек/изображение на RTX 4090. TensorRT ускоряет в 2.3×.
Генерация видео 480p-720p. 48 ГБ позволяет 720p без offloading — невозможно на 24 ГБ.
Генерация видео 720p, 24 fps. 48 ГБ — рекомендуемый объём без квантизации.
Распознавание речи 99+ языков. 10 мин аудио за 8 сек. В 6 раз быстрее V3.
Синтез речи с клонированием голоса. 335M параметров, RTF 0.15 — 7× скорость реального времени.
Укажите параметры и запустите сервер за несколько минут
Укажите параметры и запустите сервер за несколько минут
Новейшая HBM3e-память для крупнейших моделей
Флагман для обучения LLM и мультимодальных моделей
80 ГБ HBM2e для обучения крупных моделей
24 ГБ. Бюджетный вариант для ML-задач
24 ГБ для рендеринга и научных вычислений
24 ГБ для инференса и лёгкого обучения
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите в Telegram, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Серверы работают в российском дата-центре уровня Tier III, а неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке Ada Lovelace. Поможем с FP8-квантизацией, TensorRT-LLM и подбором окружения. Ответ — до 15 минут.