Ollama · MIT · dev-friendly

Аренда GPU для Ollama
запуск за 5 минут,
от 168 ₽/час

Установите Ollama одной командой и поднимите OpenAI-совместимый API на порту 11434. Реестр моделей, GGUF-веса, Modelfile для кастомизации.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Локальная разработка

Разработчики поднимают LLM на ноутбуке или GPU-сервере, тестируют промпты и пайплайны без расходов на OpenAI API. Один CLI — десятки моделей.

Демо и прототипы

Поднять рабочий прототип чат-бота, RAG-агента, code-assistant за один вечер. Подменили OPENAI_BASE_URL — и весь существующий код OpenAI работает локально.

Изолированный контур

Корпоративные данные не покидают периметр. Развернули Ollama на сервере в РФ, подключили внутренние сервисы по приватной сети — никакие токены не уходят к Alibaba/OpenAI.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет Ollama

Установка одной командой

curl-скрипт ставит бинарник, systemd-юнит и CLI. От «голого» Ubuntu до первого токена — меньше двух минут.

Встроенный реестр моделей

ollama pull qwen3:32b — Ollama сама скачает GGUF-веса с ollama.com/library. Поддержка тегов и квантизаций (Q4_K_M, Q8_0, fp16) из коробки.

OpenAI-совместимый API

Эндпоинты /v1/chat/completions и /v1/embeddings на порту 11434. Подменили OPENAI_BASE_URL — клиент работает без правок кода.

GGUF backend (llama.cpp)

Бэкенд llama.cpp с CUDA, ROCm, Metal. Работает и на GPU, и на CPU. 4-bit квантизация позволяет уместить 32B-модель на одну RTX 3090.

Modelfile для кастомизации

Простой Dockerfile-подобный синтаксис: задайте system prompt, температуру, контекст, импортируйте свой GGUF-файл или LoRA-адаптер.

Multi-modal и vision

Из коробки — LLaVA, llama3.2-vision, Qwen3-VL, Gemma-3. Передаёте картинку в запросе, получаете описание или OCR.

Tool calls и structured output

Function calling в OpenAI-формате, JSON-режим, structured outputs через JSON Schema. Совместимо с LangChain, LlamaIndex, OpenAI SDK.

Параллельные запросы

OLLAMA_NUM_PARALLEL и OLLAMA_MAX_LOADED_MODELS позволяют держать несколько моделей в VRAM и обслуживать запросы конкурентно.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Официальный install-скрипт ставит бинарник в /usr/local/bin, регистрирует systemd-юнит ollama.service и автоматически подхватывает CUDA-драйвер.

# Установка (Ubuntu 22.04/24.04, CUDA 12.x уже на сервере):
curl -fsSL https://ollama.com/install.sh | sh

# Проверим статус сервиса:
systemctl status ollama

# Скачиваем и запускаем модель (интерактивный чат):
ollama run qwen3:32b

# Или сервер слушает на 0.0.0.0:11434 в фоне:
OLLAMA_HOST=0.0.0.0 ollama serve
Запустить Ollama

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

llama.cpp — низкоуровневый движок, ядро под GGUF-веса. Ollama — обёртка над ним: добавляет CLI, реестр моделей, OpenAI-совместимый API, Modelfile, systemd-юнит. vLLM — production-движок с PagedAttention и continuous batching, выше throughput на параллельных запросах. Ollama выбирают за dev-experience, vLLM — за нагрузку. Гайд по vLLM — на странице Qwen.

Зависит от модели. До 14B Q4 — хватает 24 ГБ (RTX 3090, A10). 32B Q4 — влезает на 24–32 ГБ, комфортно на RTX 4090 48 ГБ. 70B Q4 (~40 ГБ) и модели с запасом контекста — A100 80 ГБ. Для CPU-only сценариев тоже работает, но медленно.

Сама Ollama лицензирована под MIT — можно встраивать, продавать, модифицировать. Но лицензии моделей независимы: Llama 3 — Meta Community License, Qwen3 — Apache 2.0, DeepSeek-R1 — MIT, Gemma — Gemma Terms. Перед коммерческим запуском проверьте лицензию конкретной модели на ollama.com/library.

Нативно. На порту 11434 поднимаются OpenAI-совместимые эндпоинты /v1/chat/completions, /v1/completions, /v1/embeddings, /v1/models. В коде меняете base_url на http://localhost:11434/v1, api_key ставите любой ('ollama' — конвенция). Library, LangChain, LlamaIndex, Continue — всё работает без правок.

Все популярные open-weight: Llama 3.x, Qwen3, DeepSeek-R1, Mistral, Gemma 3, Phi-4, gpt-oss. Каждая — в разных размерах и квантизациях через теги: qwen3:8b, qwen3:32b-q4_K_M. Полный список — ollama.com/library. Свои GGUF-веса импортируются через Modelfile (FROM /path/to.gguf).

Сервер готов за 3–5 минут после оплаты. Установка Ollama одной curl-командой — ~30 секунд. Скачивание весов (8B ~5 ГБ, 32B ~20 ГБ) на гигабитном канале — 1–4 минуты. Итого от первого клика до первого токена — 5–10 минут. SSH-инструкция — здесь. Тарификация посекундная.

Да. Переменные OLLAMA_MAX_LOADED_MODELS (сколько моделей в VRAM сразу) и OLLAMA_NUM_PARALLEL (параллельные запросы к одной модели) задают concurrency. На A100 80 ГБ можно держать две 30B-модели одновременно или одну 70B. Ollama выгружает «холодные» модели по OLLAMA_KEEP_ALIVE.

По умолчанию — нет. Ollama не имеет аутентификации. Если нужен внешний доступ — ставьте перед ним nginx с Basic Auth или Bearer-токеном, открывайте только по HTTPS. Лучшая практика — оставить Ollama на 127.0.0.1:11434 и ходить через SSH-туннель: ssh -L 11434:localhost:11434 user@server.

Сам Ollama — inference-only, обучение не запускает. Но готовый fine-tuned чекпоинт легко импортировать: сконвертируйте веса в GGUF (через llama.cpp), затем FROM ./your-finetuned.gguf в Modelfile. Для самого fine-tuning — Unsloth или Axolotl на A100 80 ГБ.

Нет. Ollama — локальный бинарник, веса хранятся на вашем сервере (~/.ollama/models). Сетевые запросы — только при ollama pull (скачивание модели с ollama.com) и при проверке обновлений. Все промпты обрабатываются локально, наружу ничего не уходит. Сервер физически в РФ (Самарская обл.).

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО. Посекундная тарификация, остаток возвращается на баланс.

Ollama на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.