Инференс и оптимизация 51 просмотр

Ollama

Ollama

Ollama — инструмент для локального запуска LLM на GPU и CPU с минимальной настройкой. Поддерживает GGUF-модели, автоматическую квантизацию и OpenAI-совместимый API.

Что такое Ollama

Ollama — open-source инструмент для запуска больших языковых моделей локально. Берёт на себя загрузку, квантизацию и сервинг моделей, предоставляя простой CLI и REST API. Построен на llama.cpp.

Быстрый старт

# Установка
curl -fsSL https://ollama.com/install.sh | sh

# Запуск модели
ollama run llama3.1:70b

# API (OpenAI-совместимый)
curl http://localhost:11434/v1/chat/completions \
  -d '{"model": "llama3.1", "messages": [{"role": "user", "content": "Hello"}]}'

Поддерживаемые модели

Модель Размеры Формат
LLaMA 3.1 8B, 70B, 405B GGUF
Qwen 2.5 0.5B-72B GGUF
DeepSeek-R1 1.5B-671B GGUF
Mistral/Mixtral 7B, 8×7B GGUF

GPU-требования

Модель (Q4_K_M) VRAM RAM (CPU fallback)
7B ~5 GB ~8 GB
13B ~9 GB ~16 GB
70B ~44 GB ~70 GB

При нехватке VRAM часть слоёв автоматически переносится на CPU.

Ollama vs vLLM vs TGI

Критерий Ollama vLLM TGI
Цель Простота Throughput Production
Batching Нет Continuous Continuous
Multi-GPU Ограничено Tensor Parallelism Tensor Parallelism
CPU fallback Да Нет Нет
Для чего Разработка, тесты Продакшн API Продакшн API

Modelfile

FROM llama3.1:8b
SYSTEM "Ты — эксперт по GPU и облачным вычислениям."
PARAMETER temperature 0.7
PARAMETER num_ctx 8192

Связанные термины

Требует

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу