NVIDIA DGX Spark
Новинка — NVIDIA Grace Blackwell

Выделенный
суперкомпьютер в аренду

Запускайте модели до 200B параметров без квантизации. 128 ГБ unified memory. Полная CUDA-совместимость.

128 ГБ
Unified Memory
1 PFLOP
FP4 производительность
169₽
в час
Простая настройка Запуск за 10 минут Персональная поддержка

Совместимость

Работает с вашим стеком без изменений кода

PyTorchPyTorch
TensorRT-LLMTensorRT-LLM
vLLM
Hugging FaceHugging Face
DockerDocker
CUDACUDA 12

Почему ваши AI-проекты буксуют?

Три главные проблемы, которые мешают запустить большие модели

01

Модели не помещаются в память

Llama 70B запрашивает 140 ГБ. В результате приходится снижать точность модели через квантизацию и терять в качестве.

02

Сложная настройка
Multi-GPU

Синхронизация карт через NVLink требует редких навыков, следовательно сильно замедляется разработка.

03

Проблемы
Shared GPU

В обычном облаке вы делите ресурсы с другими. Это может делать работу сервиса нестабильной для конечного клиента.

А что если можно получить 128 ГБ памяти по цене RTX?

NVIDIA DGX Spark

Знакомьтесь: DGX Spark.
Компактный суперкомпьютер.

Архитектура гигантских дата-центров в корпусе размером с книгу. Та же технология, что в серверных стойках за миллионы рублей.

NVIDIA DGX Spark с чипом GB10 Grace Blackwell
128 ГБ

Unified memory

1 PFLOP

FP4 AI performance

192

Tensor Cores

273 GB/s

Bandwidth памяти

Grace Blackwell. Не игровая карта.

Забудьте про RTX 5090. GB10 — это совершенно другая архитектура. CPU и GPU делят одну память напрямую через NVLink-C2C со скоростью 600 GB/s — в 10 раз быстрее PCIe.

CUDA. PyTorch. Всё работает.

Никакой адаптации кода. Ваши скрипты на PyTorch запускаются как есть. Docker, vLLM, Hugging Face — всё из коробки. Если вы работали с NVIDIA раньше, вы уже знаете как это делать.

Два устройства — 256 ГБ памяти.

Соедините два DGX Spark через ConnectX-7 — и получите 256 ГБ объединённой памяти. Этого хватит для Llama 405B и большинства современных моделей.

Почему 128 ГБ лучше, чем 80 ГБ на H100?

Секрет в Unified Memory архитектуре

Традиционно

H100 / RTX: раздельная память

CPU RAM отдельно от GPU VRAM
Копирование через PCIe (64 GB/s)
Модель должна помещаться в VRAM
H100: максимум 80 ГБ
DGX Spark

Unified Memory: общий пул

CPU и GPU делят 128 ГБ памяти
NVLink-C2C: 600 GB/s (10× быстрее)
Модель загружается один раз
Нет копирования данных

Сравните сами

ХарактеристикаDGX SparkH100 CloudRTX 5090
Память128 ГБ ✓80 ГБ32 ГБ
Тип памятиUnifiedDiscrete HBM3Discrete GDDR7
Цена аренды169₽/час ✓150-350₽/час50-90₽/час
Llama 70B✓ FP16Квантизация
Llama 405B✓ 2 юнита8+ карт
CUDA совместимость✓ Полная✓ Полная✓ Полная

DGX Spark: больше памяти, чем H100 — без квантизации

Запускайте модели любого размера

От 8B для быстрых задач до 405B для сложных рассуждений

1× DGX Spark
128 ГБ — до 200B параметров
Llama 3.1 70B Qwen 72B Mistral Large DeepSeek-R1 Code Llama 70B GPT-OSS 120B
2× DGX Spark (кластер)
256 ГБ — до 405B параметров
Llama 3.1 405B DeepSeek V3 Все модели 1×

Два устройства соединяются кабелем QSFP56 через ConnectX-7

Для кого DGX Spark?

Идеальные сценарии использования

Стартапы

Прототипируйте модели до 200B параметров локально, до того как платить за дорогое облако.

R&D команды

Экспериментируйте с архитектурами моделей на своём железе. Воспроизводимые исследования.

Enterprise

Выделенное железо — никаких соседей. Полная изоляция для чувствительных данных.

Fine-tuning

LoRA и QLoRA на моделях до 70B. Создавайте специализированные модели для своих задач.

AI-агенты

Мультиагентные системы на одном устройстве. Shared inference экономит память.

Vision AI

Computer Vision, обработка видеопотоков. Edge AI разработка перед деплоем.

Реальная производительность

Бенчмарки от LMSYS и независимых исследователей

Инференс

Llama 3.1 8B (FP8) 7,991 tok/s
DeepSeek-R1 14B (FP8) 2,074 tok/s
Llama 3.1 70B (FP8) 803 tok/s

Fine-tuning

Llama 3.2 3B (Full) 82,739 tok/s
Llama 3.1 8B (LoRA) 53,658 tok/s
Llama 3.3 70B (QLoRA) 5,079 tok/s

Источники: LMSYS In-Depth Review, NVIDIA Developer Blog, Sebastian Raschka

Простое ценообразование

Платите только за время использования

1× DGX Spark
169₽ /час
  • 128 ГБ unified memory
  • 6,144 CUDA ядер
  • Модели до 200B параметров
  • Llama 70B, Qwen 72B, DeepSeek-R1
Оставить заявку
2× DGX Spark (кластер)
299₽ /час
  • 256 ГБ unified memory
  • 12,288 CUDA ядер
  • Модели до 405B параметров
  • Llama 405B, DeepSeek V3
Оставить заявку
Нет комиссии за настройку Почасовая оплата Запуск за 10 минут Персональная техподдержка
Открыт набор в бета-тест

Оставьте заявку и мы свяжемся с вами

Первые участники получат скидку 30% на первый месяц

Укажите корректный email
Выберите конфигурацию
Укажите ваш Telegram

Ваши данные защищены. Нажимая кнопку, вы соглашаетесь с обработкой данных

Частые вопросы

Нет. DGX Spark полностью совместим с CUDA. Ваши скрипты PyTorch, TensorRT-LLM, vLLM работают без изменений. Docker-контейнеры запускаются как есть. Если вы работали с NVIDIA раньше — вы уже знаете как это делать.

Главное отличие — unified memory. У H100 только 80 ГБ VRAM, и модель должна туда помещаться. У DGX Spark 128 ГБ общей памяти — Llama 70B работает без квантизации.

Также DGX Spark тише и компактнее — подходит для офиса и приватных инсталляций.

DGX Spark оптимален для:
• Разработки и прототипирования
• Инференса с низким batch size (1-8)
• Выделенных систем с полной изоляцией

Для high-throughput API (batch 32+) лучше подойдёт H100.

Два DGX Spark соединяются кабелем QSFP56 через порты ConnectX-7. NVIDIA предоставляет готовые скрипты настройки — процесс занимает 15 минут. Мы поможем с настройкой.

На DGX Spark можно делать:
• Full fine-tuning моделей до 70B
• LoRA/QLoRA для моделей до 70B
• Скорость: 80,000+ токенов/сек для 3B моделей

Готовы запустить свою первую 70B модель?

128 ГБ памяти. Полная CUDA-совместимость. От 169₽/час.

Арендовать DGX Spark сейчас

или напишите нам в телеграм

ipv4 public address
ipv4 public address