Инференс и оптимизация
76 просмотров
Ollama
Ollama
Ollama — инструмент для локального запуска LLM на GPU и CPU с минимальной настройкой. Поддерживает GGUF-модели, автоматическую квантизацию и OpenAI-совместимый API.
Что такое Ollama
Ollama — open-source инструмент для запуска больших языковых моделей локально. Берёт на себя загрузку, квантизацию и сервинг моделей, предоставляя простой CLI и REST API. Построен на llama.cpp.
Быстрый старт
# Установка
curl -fsSL https://ollama.com/install.sh | sh
# Запуск модели
ollama run llama3.1:70b
# API (OpenAI-совместимый)
curl http://localhost:11434/v1/chat/completions \
-d '{"model": "llama3.1", "messages": [{"role": "user", "content": "Hello"}]}'
Поддерживаемые модели
| Модель | Размеры | Формат |
|---|---|---|
| LLaMA 3.1 | 8B, 70B, 405B | GGUF |
| Qwen 2.5 | 0.5B-72B | GGUF |
| DeepSeek-R1 | 1.5B-671B | GGUF |
| Mistral/Mixtral | 7B, 8×7B | GGUF |
GPU-требования
| Модель (Q4_K_M) | VRAM | RAM (CPU fallback) |
|---|---|---|
| 7B | ~5 GB | ~8 GB |
| 13B | ~9 GB | ~16 GB |
| 70B | ~44 GB | ~70 GB |
При нехватке VRAM часть слоёв автоматически переносится на CPU.
Ollama vs vLLM vs TGI
| Критерий | Ollama | vLLM | TGI |
|---|---|---|---|
| Цель | Простота | Throughput | Production |
| Batching | Нет | Continuous | Continuous |
| Multi-GPU | Ограничено | Tensor Parallelism | Tensor Parallelism |
| CPU fallback | Да | Нет | Нет |
| Для чего | Разработка, тесты | Продакшн API | Продакшн API |
Modelfile
FROM llama3.1:8b
SYSTEM "Ты — эксперт по GPU и облачным вычислениям."
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
Связанные термины
Требует