Инференс и оптимизация 76 просмотров

Ollama

Ollama — инструмент для локального запуска LLM на GPU и CPU с минимальной настройкой. Поддерживает GGUF-модели, автоматическую квантизацию и OpenAI-совместимый API.

Содержание

Что такое Ollama
Быстрый старт
Поддерживаемые модели
GPU-требования
Ollama vs vLLM vs TGI
Modelfile

Что такое Ollama

Ollama — open-source инструмент для запуска больших языковых моделей локально. Берёт на себя загрузку, квантизацию и сервинг моделей, предоставляя простой CLI и REST API. Построен на llama.cpp.

Быстрый старт

# Установка
curl -fsSL https://ollama.com/install.sh | sh

# Запуск модели
ollama run llama3.1:70b

# API (OpenAI-совместимый)
curl http://localhost:11434/v1/chat/completions \
  -d '{"model": "llama3.1", "messages": [{"role": "user", "content": "Hello"}]}'

Поддерживаемые модели

Модель	Размеры	Формат
LLaMA 3.1	8B, 70B, 405B	GGUF
Qwen 2.5	0.5B-72B	GGUF
DeepSeek-R1	1.5B-671B	GGUF
Mistral/Mixtral	7B, 8×7B	GGUF

GPU-требования

Модель (Q4_K_M)	VRAM	RAM (CPU fallback)
7B	~5 GB	~8 GB
13B	~9 GB	~16 GB
70B	~44 GB	~70 GB

При нехватке VRAM часть слоёв автоматически переносится на CPU.

Ollama vs vLLM vs TGI

Критерий	Ollama	vLLM	TGI
Цель	Простота	Throughput	Production
Batching	Нет	Continuous	Continuous
Multi-GPU	Ограничено	Tensor Parallelism	Tensor Parallelism
CPU fallback	Да	Нет	Нет
Для чего	Разработка, тесты	Продакшн API	Продакшн API

Modelfile

FROM llama3.1:8b
SYSTEM "Ты — эксперт по GPU и облачным вычислениям."
PARAMETER temperature 0.7
PARAMETER num_ctx 8192

Связанные термины

Требует

GGUF

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу