Новинка — NVIDIA Grace Blackwell

Выделенный
суперкомпьютер в аренду

Запускайте модели до 200B параметров без квантизации. 128 ГБ unified memory. Полная CUDA-совместимость.

128 ГБ

Unified Memory

1 PFLOP

FP4 производительность

169₽

в час

Арендовать DGX Spark Что это такое?

Простая настройка Запуск за 10 минут Персональная поддержка

Почему ваши AI-проекты буксуют?

Три главные проблемы, которые мешают запустить большие модели

Модели не помещаются в память

Llama 70B запрашивает 140 ГБ. В результате приходится снижать точность модели через квантизацию и терять в качестве.

Сложная настройка Multi-GPU

Синхронизация карт через NVLink требует редких навыков, следовательно сильно замедляется разработка.

Проблемы Shared GPU

В обычном облаке вы делите ресурсы с другими. Это может делать работу сервиса нестабильной для конечного клиента.

А что если можно получить 128 ГБ памяти по цене RTX?

NVIDIA DGX Spark

Знакомьтесь: DGX Spark.
Компактный суперкомпьютер.

Архитектура гигантских дата-центров в корпусе размером с книгу. Та же технология, что в серверных стойках за миллионы рублей.

NVIDIA DGX Spark с чипом GB10 Grace Blackwell

128 ГБ

Unified memory

1 PFLOP

FP4 AI performance

192

Tensor Cores

273 GB/s

Bandwidth памяти

Grace Blackwell. Не игровая карта.

Забудьте про RTX 5090. GB10 — это совершенно другая архитектура. CPU и GPU делят одну память напрямую через NVLink-C2C со скоростью 600 GB/s — в 10 раз быстрее PCIe.

CUDA. PyTorch. Всё работает.

Никакой адаптации кода. Ваши скрипты на PyTorch запускаются как есть. Docker, vLLM, Hugging Face — всё из коробки. Если вы работали с NVIDIA раньше, вы уже знаете как это делать.

Два устройства — 256 ГБ памяти.

Соедините два DGX Spark через ConnectX-7 — и получите 256 ГБ объединённой памяти. Этого хватит для Llama 405B и большинства современных моделей.

Почему 128 ГБ лучше, чем 80 ГБ на H100?

Секрет в Unified Memory архитектуре

Традиционно

H100 / RTX: раздельная память

CPU RAM отдельно от GPU VRAM

Копирование через PCIe (64 GB/s)

Модель должна помещаться в VRAM

H100: максимум 80 ГБ

DGX Spark

Unified Memory: общий пул

CPU и GPU делят 128 ГБ памяти

NVLink-C2C: 600 GB/s (10× быстрее)

Модель загружается один раз

Нет копирования данных

Главный вывод: Llama 70B в FP16 требует ~140 ГБ памяти. На H100 (80 ГБ) это невозможно без квантизации. На DGX Spark (128 ГБ) — возможно напрямую.

Сравните сами

Характеристика	DGX Spark	H100 Cloud	RTX 5090
Память	128 ГБ ✓	80 ГБ	32 ГБ
Тип памяти	Unified	Discrete HBM3	Discrete GDDR7
Цена аренды	169₽/час ✓	150-350₽/час	50-90₽/час
Llama 70B	✓ FP16	Квантизация	✕
Llama 405B	✓ 2 юнита	8+ карт	✕
CUDA совместимость	✓ Полная	✓ Полная	✓ Полная

DGX Spark: больше памяти, чем H100 — без квантизации

Запускайте модели любого размера

От 8B для быстрых задач до 405B для сложных рассуждений

1× DGX Spark

128 ГБ — до 200B параметров

Llama 3.1 70BQwen 72BMistral LargeDeepSeek-R1Code Llama 70BGPT-OSS 120B

2× DGX Spark (кластер)

256 ГБ — до 405B параметров

Llama 3.1 405BDeepSeek V3Все модели 1×

Два устройства соединяются кабелем QSFP56 через ConnectX-7

Для кого DGX Spark?

Идеальные сценарии использования

Стартапы

Прототипируйте модели до 200B параметров локально, до того как платить за дорогое облако.

R&D команды

Экспериментируйте с архитектурами моделей на своём железе. Воспроизводимые исследования.

Enterprise

Выделенное железо — никаких соседей. Полная изоляция для чувствительных данных.

Fine-tuning

LoRA и QLoRA на моделях до 70B. Создавайте специализированные модели для своих задач.

AI-агенты

Мультиагентные системы на одном устройстве. Shared inference экономит память.

Vision AI

Computer Vision, обработка видеопотоков. Edge AI разработка перед деплоем.

Реальная производительность

Бенчмарки от LMSYS и независимых исследователей

Инференс

Llama 3.1 8B (FP8)7,991 tok/s

DeepSeek-R1 14B (FP8)2,074 tok/s

Llama 3.1 70B (FP8)803 tok/s

Fine-tuning

Llama 3.2 3B (Full)82,739 tok/s

Llama 3.1 8B (LoRA)53,658 tok/s

Llama 3.3 70B (QLoRA)5,079 tok/s

Источники: LMSYS In-Depth Review, NVIDIA Developer Blog, Sebastian Raschka

Простое ценообразование

Платите только за время использования

1× DGX Spark

169₽/час

128 ГБ unified memory
6,144 CUDA ядер
Модели до 200B параметров
Llama 70B, Qwen 72B, DeepSeek-R1

Оставить заявку

2× DGX Spark (кластер)

299₽/час

256 ГБ unified memory
12,288 CUDA ядер
Модели до 405B параметров
Llama 405B, DeepSeek V3

Оставить заявку

Нет комиссии за настройку Почасовая оплата Запуск за 10 минут Персональная техподдержка

Открыт набор в бета-тест

Оставьте заявку и мы свяжемся с вами

Первые участники получат скидку 30% на первый месяц

Частые вопросы

Нет. DGX Spark полностью совместим с CUDA. Ваши скрипты PyTorch, TensorRT-LLM, vLLM работают без изменений. Docker-контейнеры запускаются как есть. Если вы работали с NVIDIA раньше — вы уже знаете как это делать.

Главное отличие — unified memory. У H100 только 80 ГБ VRAM, и модель должна туда помещаться. У DGX Spark 128 ГБ общей памяти — Llama 70B работает без квантизации.

Также DGX Spark тише и компактнее — подходит для офиса и приватных инсталляций.

DGX Spark оптимален для:
• Разработки и прототипирования
• Инференса с низким batch size (1-8)
• Выделенных систем с полной изоляцией

Для high-throughput API (batch 32+) лучше подойдёт H100.

Два DGX Spark соединяются кабелем QSFP56 через порты ConnectX-7. NVIDIA предоставляет готовые скрипты настройки — процесс занимает 15 минут. Мы поможем с настройкой.

На DGX Spark можно делать:
• Full fine-tuning моделей до 70B
• LoRA/QLoRA для моделей до 70B
• Скорость: 80,000+ токенов/сек для 3B моделей

Выделенный
суперкомпьютер в аренду

Работает с вашим стеком без изменений кода