Question 1

Что такое DINOv3 и чем он отличается от DINOv2?

Accepted Answer

DINOv3 — третье поколение self-supervised vision foundation от Meta AI (август 2025). Главные отличия: новая техника Gram anchoring против деградации dense features при длительном обучении, претрейн на 1.689 млрд изображений (LVD-1689M), линейка от 21M до 6.7B параметров. На ADE20K сегментации даёт +6 mIoU к DINOv2 при frozen backbone, на retrieval/depth — заметный отрыв. Архитектурно: ViT с RoPE и 4 register tokens.

Question 2

Какая лицензия у DINOv3? Можно использовать в коммерции?

Accepted Answer

Лицензия — DINOv3 License (кастомная, не Apache 2.0 как у DINOv2). Коммерческое использование разрешено, но с оговорками: (1) запрет на военное применение, ядерную промышленность, разработку оружия, (2) соблюдение санкций США/ЕС/ООН/UK, (3) запрет на reverse-engineering, (4) при иске к Meta о нарушении IP лицензия автоматически прекращается, (5) при публикации научных результатов нужна атрибуция. Перед production-внедрением рекомендуем согласовать с юристом — лицензия опубликована в репо. Веса на HF — gated: нужно принять соглашение в аккаунте.

Question 3

Какую версию выбрать под мою задачу?

Accepted Answer

Для старта и edge — ViT-S/16 (21M): влезает на любую GPU от 8 ГБ. Для production-feature extraction и retrieval — ViT-B/16 (86M) на RTX 3090. Для сегментации, depth, аномалий — ViT-L/16 (300M) на RTX 4090 48 ГБ. Для SOTA dense prediction — ViT-7B/16 на A100 80 ГБ. Для спутниковых снимков — отдельный ViT-L SAT-493M.

Question 4

Сколько VRAM нужно для инференса?

Accepted Answer

В fp16/bf16: ViT-S — 1 ГБ, ViT-B — 3 ГБ, ViT-L — 10 ГБ, ViT-H+ — 28 ГБ, ViT-7B — 140 ГБ (fp16) или 22 ГБ в Q4. Это веса; под высокое разрешение (1024+ px) и большой batch добавьте 2-4× к этому числу. Для большинства задач до ViT-L хватает RTX 4090 48 ГБ.

Question 5

Нужно дообучать модель или она работает «из коробки»?

Accepted Answer

Главная фишка DINOv3 — frozen backbone. Большинство downstream-задач решаются без файнтюна основной модели: тренируется только лёгкая голова (linear probe, k-NN, conv-decoder). Это в 10-100× быстрее и требует в десятки раз меньше размеченных данных, чем end-to-end файнтюн. Для максимального outcome — LoRA-файнтюн backbone (см. готовые рецепты типа dinov3-finetune на GitHub).

Question 6

Как DINOv3 сравнивается с CLIP и SigLIP 2?

Accepted Answer

DINOv3 — чисто визуальная модель (без текста), CLIP/SigLIP — image-text. DINOv3 сильнее на dense-задачах (сегментация, depth, retrieval по patch-фичам), CLIP/SigLIP — на open-vocabulary-классификации и zero-shot по тексту. На ImageNet linear probe DINOv3 ViT-L (~86.6%) сопоставим с SigLIP 2 ViT-L. Для production-CV без текстовых запросов DINOv3 даёт лучшее качество фичей.

Question 7

Можно дообучать DINOv3 (LoRA, QLoRA)?

Accepted Answer

Да. Поддерживается стандартный PEFT/LoRA (готовые рецепты — dinov3-finetune). QLoRA на ViT-L — 6-12 ч на RTX 4090 48 ГБ. Полный файнтюн ViT-L — A100 80 ГБ, ViT-7B — кластер 4-8× A100/H100. Часто хватает Linear/k-NN-головы поверх frozen backbone — это быстрее на порядок.

Question 8

Сколько длится запуск сервера?

Accepted Answer

Сервер готов за 3-5 минут после оплаты. Дальше: установка torch + transformers (~2 минуты), accept лицензии DINOv3 на HF в браузере, huggingface-cli login, скачивание весов (1-15 ГБ в зависимости от версии). 5-10 минут до первой инференс-итерации. Подключение по SSH — в инструкции.

Question 9

Данные не утекут Meta?

Accepted Answer

Нет. Мы запускаем open-weight веса локально на серверах в РФ (Самарская обл.). Модель — это файл, который работает офлайн. Никакая телеметрия не уходит наружу. Для полностью изолированного контура поддержка настроит VPC-подключение.

Question 10

Посекундная оплата — как это работает?

Accepted Answer

Платите за каждую секунду работы сервера. Остановили — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс. Удобно для batch-инференса по расписанию.

Question 11

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Аренда GPU для DINOv3
запуск за 5 минут,
от 79 ₽/час

Популярные задачи наших клиентов

Feature extraction для retrieval

Image similarity и поиск дубликатов

Семантическая сегментация

Как арендовать сервер с RTX 4090

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Какую версию выбрать

DINOv3 ViT-S/16

DINOv3 ViT-B/16

DINOv3 ViT-L/16

DINOv3 ViT-H+/16

DINOv3 ViT-7B/16

DINOv3 ConvNeXt Base

DINOv3 ViT-L/16 SAT-493M

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

DINOv3 на вашем GPU
От 79 ₽/час, посекундная оплата.

Аренда GPU для DINOv3 запуск за 5 минут, от 79 ₽/час