Question 1

Чем Ollama отличается от vLLM и llama.cpp?

Accepted Answer

llama.cpp — низкоуровневый движок, ядро под GGUF-веса. Ollama — обёртка над ним: добавляет CLI, реестр моделей, OpenAI-совместимый API, Modelfile, systemd-юнит. vLLM — production-движок с PagedAttention и continuous batching, выше throughput на параллельных запросах. Ollama выбирают за dev-experience, vLLM — за нагрузку. Гайд по vLLM — на странице Qwen.

Question 2

Какой GPU взять под Ollama?

Accepted Answer

Зависит от модели. До 14B Q4 — хватает 24 ГБ (RTX 3090, A10). 32B Q4 — влезает на 24–32 ГБ, комфортно на RTX 4090 48 ГБ. 70B Q4 (~40 ГБ) и модели с запасом контекста — A100 80 ГБ. Для CPU-only сценариев тоже работает, но медленно.

Question 3

Можно использовать Ollama в коммерческом продукте?

Accepted Answer

Сама Ollama лицензирована под MIT — можно встраивать, продавать, модифицировать. Но лицензии моделей независимы: Llama 3 — Meta Community License, Qwen3 — Apache 2.0, DeepSeek-R1 — MIT, Gemma — Gemma Terms. Перед коммерческим запуском проверьте лицензию конкретной модели на ollama.com/library.

Question 4

Как Ollama работает с OpenAI SDK?

Accepted Answer

Нативно. На порту 11434 поднимаются OpenAI-совместимые эндпоинты /v1/chat/completions, /v1/completions, /v1/embeddings, /v1/models. В коде меняете base_url на http://localhost:11434/v1, api_key ставите любой ('ollama' — конвенция). Library, LangChain, LlamaIndex, Continue — всё работает без правок.

Question 5

Какие модели есть в реестре?

Accepted Answer

Все популярные open-weight: Llama 3.x, Qwen3, DeepSeek-R1, Mistral, Gemma 3, Phi-4, gpt-oss. Каждая — в разных размерах и квантизациях через теги: qwen3:8b, qwen3:32b-q4_K_M. Полный список — ollama.com/library. Свои GGUF-веса импортируются через Modelfile (FROM /path/to.gguf).

Question 6

Сколько длится запуск сервера с Ollama?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Установка Ollama одной curl-командой — ~30 секунд. Скачивание весов (8B ~5 ГБ, 32B ~20 ГБ) на гигабитном канале — 1–4 минуты. Итого от первого клика до первого токена — 5–10 минут. SSH-инструкция — здесь. Тарификация посекундная.

Question 7

Можно держать несколько моделей одновременно?

Accepted Answer

Да. Переменные OLLAMA_MAX_LOADED_MODELS (сколько моделей в VRAM сразу) и OLLAMA_NUM_PARALLEL (параллельные запросы к одной модели) задают concurrency. На A100 80 ГБ можно держать две 30B-модели одновременно или одну 70B. Ollama выгружает «холодные» модели по OLLAMA_KEEP_ALIVE.

Question 8

Безопасно ли открывать порт 11434 наружу?

Accepted Answer

По умолчанию — нет. Ollama не имеет аутентификации. Если нужен внешний доступ — ставьте перед ним nginx с Basic Auth или Bearer-токеном, открывайте только по HTTPS. Лучшая практика — оставить Ollama на 127.0.0.1:11434 и ходить через SSH-туннель: ssh -L 11434:localhost:11434 user@server.

Question 9

Поддерживается ли fine-tuning через Ollama?

Accepted Answer

Сам Ollama — inference-only, обучение не запускает. Но готовый fine-tuned чекпоинт легко импортировать: сконвертируйте веса в GGUF (через llama.cpp), затем FROM ./your-finetuned.gguf в Modelfile. Для самого fine-tuning — Unsloth или Axolotl на A100 80 ГБ.

Question 10

Данные не утекут на серверы Ollama?

Accepted Answer

Нет. Ollama — локальный бинарник, веса хранятся на вашем сервере (~/.ollama/models). Сетевые запросы — только при ollama pull (скачивание модели с ollama.com) и при проверке обновлений. Все промпты обрабатываются локально, наружу ничего не уходит. Сервер физически в РФ (Самарская обл.).

Question 11

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО. Посекундная тарификация, остаток возвращается на баланс.

Аренда GPU для Ollama
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Локальная разработка

Демо и прототипы

Изолированный контур

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет Ollama

Установка одной командой

Встроенный реестр моделей

OpenAI-совместимый API

GGUF backend (llama.cpp)

Modelfile для кастомизации

Multi-modal и vision

Tool calls и structured output

Параллельные запросы

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

Ollama на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для Ollama запуск за 5 минут, от 168 ₽/час