

Запускайте модели до 200B параметров без квантизации. 128 ГБ unified memory. Полная CUDA-совместимость.
Совместимость
Три главные проблемы, которые мешают запустить большие модели
Llama 70B запрашивает 140 ГБ. В результате приходится снижать точность модели через квантизацию и терять в качестве.
Синхронизация карт через NVLink требует редких навыков, следовательно сильно замедляется разработка.
В обычном облаке вы делите ресурсы с другими. Это может делать работу сервиса нестабильной для конечного клиента.
А что если можно получить 128 ГБ памяти по цене RTX?
NVIDIA DGX Spark
Архитектура гигантских дата-центров в корпусе размером с книгу. Та же технология, что в серверных стойках за миллионы рублей.

Unified memory
FP4 AI performance
Tensor Cores
Bandwidth памяти
Забудьте про RTX 5090. GB10 — это совершенно другая архитектура. CPU и GPU делят одну память напрямую через NVLink-C2C со скоростью 600 GB/s — в 10 раз быстрее PCIe.
Никакой адаптации кода. Ваши скрипты на PyTorch запускаются как есть. Docker, vLLM, Hugging Face — всё из коробки. Если вы работали с NVIDIA раньше, вы уже знаете как это делать.
Соедините два DGX Spark через ConnectX-7 — и получите 256 ГБ объединённой памяти. Этого хватит для Llama 405B и большинства современных моделей.
Секрет в Unified Memory архитектуре
DGX Spark: больше памяти, чем H100 — без квантизации
От 8B для быстрых задач до 405B для сложных рассуждений
Два устройства соединяются кабелем QSFP56 через ConnectX-7
Идеальные сценарии использования
Прототипируйте модели до 200B параметров локально, до того как платить за дорогое облако.
Экспериментируйте с архитектурами моделей на своём железе. Воспроизводимые исследования.
Выделенное железо — никаких соседей. Полная изоляция для чувствительных данных.
LoRA и QLoRA на моделях до 70B. Создавайте специализированные модели для своих задач.
Мультиагентные системы на одном устройстве. Shared inference экономит память.
Computer Vision, обработка видеопотоков. Edge AI разработка перед деплоем.
Бенчмарки от LMSYS и независимых исследователей
Источники: LMSYS In-Depth Review, NVIDIA Developer Blog, Sebastian Raschka
Платите только за время использования
Первые участники получат скидку 30% на первый месяц
128 ГБ памяти. Полная CUDA-совместимость. От 169₽/час.
Арендовать DGX Spark сейчасили напишите нам в телеграм