Meta AI · DINOv3 License · self-supervised

Аренда GPU для DINOv3
запуск за 5 минут,
от 79 ₽/час

Self-supervised vision foundation от Meta AI. Универсальный backbone для сегментации, depth, retrieval и классификации без файнтюна. Веса с Hugging Face, инференс в PyTorch.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Feature extraction для retrieval

DINOv3 даёт богатые self-supervised эмбеддинги без файнтюна. CLS-токен или усреднённые patch tokens — на базу из миллионов изображений с ANN-индексом.

Image similarity и поиск дубликатов

Поиск визуально похожих товаров, near-duplicate detection в фотобанках, стоковых сервисах, маркетплейсах. Косинусное расстояние по ViT-эмбеддингам.

Семантическая сегментация

Frozen DINOv3 + лёгкая linear-голова. ADE20K 55.9 mIoU линейный пробинг (+6 mIoU над DINOv2). С полноценной головой — 63.0 mIoU SOTA.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с RTX 4090

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию выбрать

DINOv3 ViT-S/16

21MViT · Small

Самый лёгкий ViT-S. Embedding 384. Для on-prem retrieval, edge-инференса и быстрых пайплайнов на CPU/слабых GPU.

VRAM (bf16):
~1 ГБ
VRAM (4-bit):
~0.4 ГБ

RTX 3060 / любой GPU от 8 ГБ

DINOv3 ViT-B/16

86MViT · Base

Базовая ViT-B. Embedding 768. Sweet spot цена/качество для production-feature extraction и downstream-задач.

VRAM (bf16):
~3 ГБ
VRAM (4-bit):
~1 ГБ

RTX 3090 / A10 (24 ГБ)

Флагман

DINOv3 ViT-L/16

300MViT · Large

Embedding 1024, 4 register tokens, RoPE. Рабочая лошадка для сегментации, depth и retrieval. ADE20K 55.9 mIoU линейный пробинг.

VRAM (bf16):
~10 ГБ
VRAM (4-bit):
~3 ГБ

RTX 4090 48 ГБ / A100 40 ГБ

DINOv3 ViT-H+/16

840MViT · Huge

Большая ViT-H+. Лучшие dense features в линейке выше 1B. Подходит для high-res inference и сложных downstream-задач.

VRAM (bf16):
~28 ГБ
VRAM (4-bit):
~9 ГБ

RTX 4090 48 ГБ / A100 80 ГБ

DINOv3 ViT-7B/16

6.7BViT · Flagship

Флагман. SOTA self-supervised vision: ADE20K 63.0 mIoU с frozen backbone. Для исследований, дообучения и production-grade dense prediction.

VRAM (bf16):
~140 ГБ (fp16)
VRAM (4-bit):
~22 ГБ

2× A100 80 ГБ (fp16) / A100 80 ГБ (Q4)

DINOv3 ConvNeXt Base

89MConvNeXt

ConvNeXt-альтернатива ViT с тем же self-supervised протоколом. Быстрее на CPU/edge и проще для классических CNN-пайплайнов.

VRAM (bf16):
~3 ГБ
VRAM (4-bit):
~1 ГБ

RTX 3090 / A10 (24 ГБ)

DINOv3 ViT-L/16 SAT-493M

300MViT · Satellite

Та же ViT-L, но pretrain на 493M спутниковых снимков. Для GIS, remote sensing, аэрофотосъёмки, сельского хозяйства.

VRAM (bf16):
~10 ГБ
VRAM (4-bit):
~3 ГБ

RTX 4090 48 ГБ / A100 40 ГБ

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Самый быстрый способ. Hugging Face Transformers ≥ 4.56.0 поддерживает DINOv3 через AutoModel. Веса автоматически тянутся с HF после принятия лицензии в браузере (gated).

# 1) ДО установки: запросите доступ к весам через анкету на странице
#    https://huggingface.co/facebook/dinov3-vitl16-pretrain-lvd1689m
#    (кнопка Request access). Meta обычно одобряет за 1-3 дня —
#    без approve веса не скачаются.
# 2) Ubuntu 24.04, CUDA 12.x. Системный Python managed — ставим в venv:
python3 -m venv /opt/dinov3 && source /opt/dinov3/bin/activate
pip install 'transformers>=4.56.0' 'torch>=2.7' torchvision pillow \
  accelerate \
  --extra-index-url https://download.pytorch.org/whl/cu128

# 3) После approve доступа — login в HF:
huggingface-cli login

python3 - <<'PY'
import torch
from transformers import AutoImageProcessor, AutoModel
from transformers.image_utils import load_image

model_id = 'facebook/dinov3-vitl16-pretrain-lvd1689m'
processor = AutoImageProcessor.from_pretrained(model_id)
model = AutoModel.from_pretrained(model_id, device_map='auto')

img = load_image('http://images.cocodataset.org/val2017/000000039769.jpg')
inputs = processor(images=img, return_tensors='pt').to(model.device)
with torch.inference_mode():
    outputs = model(**inputs)
print('CLS embedding:', outputs.pooler_output.shape)  # [1, 1024]
PY
Запустить DINOv3

~79 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с RTX 4090

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

DINOv3 — третье поколение self-supervised vision foundation от Meta AI (август 2025). Главные отличия: новая техника Gram anchoring против деградации dense features при длительном обучении, претрейн на 1.689 млрд изображений (LVD-1689M), линейка от 21M до 6.7B параметров. На ADE20K сегментации даёт +6 mIoU к DINOv2 при frozen backbone, на retrieval/depth — заметный отрыв. Архитектурно: ViT с RoPE и 4 register tokens.

Лицензия — DINOv3 License (кастомная, не Apache 2.0 как у DINOv2). Коммерческое использование разрешено, но с оговорками: (1) запрет на военное применение, ядерную промышленность, разработку оружия, (2) соблюдение санкций США/ЕС/ООН/UK, (3) запрет на reverse-engineering, (4) при иске к Meta о нарушении IP лицензия автоматически прекращается, (5) при публикации научных результатов нужна атрибуция. Перед production-внедрением рекомендуем согласовать с юристом — лицензия опубликована в репо. Веса на HF — gated: нужно принять соглашение в аккаунте.

Для старта и edge — ViT-S/16 (21M): влезает на любую GPU от 8 ГБ. Для production-feature extraction и retrieval — ViT-B/16 (86M) на RTX 3090. Для сегментации, depth, аномалий — ViT-L/16 (300M) на RTX 4090 48 ГБ. Для SOTA dense prediction — ViT-7B/16 на A100 80 ГБ. Для спутниковых снимков — отдельный ViT-L SAT-493M.

В fp16/bf16: ViT-S — 1 ГБ, ViT-B — 3 ГБ, ViT-L — 10 ГБ, ViT-H+ — 28 ГБ, ViT-7B — 140 ГБ (fp16) или 22 ГБ в Q4. Это веса; под высокое разрешение (1024+ px) и большой batch добавьте 2-4× к этому числу. Для большинства задач до ViT-L хватает RTX 4090 48 ГБ.

Главная фишка DINOv3 — frozen backbone. Большинство downstream-задач решаются без файнтюна основной модели: тренируется только лёгкая голова (linear probe, k-NN, conv-decoder). Это в 10-100× быстрее и требует в десятки раз меньше размеченных данных, чем end-to-end файнтюн. Для максимального outcome — LoRA-файнтюн backbone (см. готовые рецепты типа dinov3-finetune на GitHub).

DINOv3 — чисто визуальная модель (без текста), CLIP/SigLIP — image-text. DINOv3 сильнее на dense-задачах (сегментация, depth, retrieval по patch-фичам), CLIP/SigLIP — на open-vocabulary-классификации и zero-shot по тексту. На ImageNet linear probe DINOv3 ViT-L (~86.6%) сопоставим с SigLIP 2 ViT-L. Для production-CV без текстовых запросов DINOv3 даёт лучшее качество фичей.

Да. Поддерживается стандартный PEFT/LoRA (готовые рецепты — dinov3-finetune). QLoRA на ViT-L — 6-12 ч на RTX 4090 48 ГБ. Полный файнтюн ViT-L — A100 80 ГБ, ViT-7B — кластер 4-8× A100/H100. Часто хватает Linear/k-NN-головы поверх frozen backbone — это быстрее на порядок.

Сервер готов за 3-5 минут после оплаты. Дальше: установка torch + transformers (~2 минуты), accept лицензии DINOv3 на HF в браузере, huggingface-cli login, скачивание весов (1-15 ГБ в зависимости от версии). 5-10 минут до первой инференс-итерации. Подключение по SSH — в инструкции.

Нет. Мы запускаем open-weight веса локально на серверах в РФ (Самарская обл.). Модель — это файл, который работает офлайн. Никакая телеметрия не уходит наружу. Для полностью изолированного контура поддержка настроит VPC-подключение.

Платите за каждую секунду работы сервера. Остановили — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс. Удобно для batch-инференса по расписанию.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

DINOv3 на вашем GPU
От 79 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.