Edge inference и low‑VRAM деплой
Q4_K_M квантизация ужимает 7B до 4 ГБ, 13B до 8 ГБ. Запускается на A10 24 ГБ, RTX 3090, MacBook Pro M‑series. Privacy‑sensitive контуры без интернета.
Q4_K_M квантизация ужимает 7B до 4 ГБ, 13B до 8 ГБ. Запускается на A10 24 ГБ, RTX 3090, MacBook Pro M‑series. Privacy‑sensitive контуры без интернета.
Любая модель с Hugging Face конвертируется в GGUF одним скриптом. Готовые квантизации от TheBloke, bartowski, unsloth. Один файл — и модель работает на CPU, NVIDIA, AMD или Apple.
Tensor parallel (build b8738+) распределяет compute‑граф между GPU. Llama 3.3 70B Q4 на двух A100 80 ГБ — до 3‑4× быстрее layer‑split режима. Подходит для production inference 70B–405B.
Другая задача? Напишите нам — подберём конфигурацию.
GGUF упаковывает веса, токенизатор и метаданные в один файл. Конвертеры convert_hf_to_gguf.py забирают модели с Hugging Face. Один артефакт грузится на CPU, CUDA, Metal или Vulkan без переупаковки.
От 1.5 до 8 бит на вес. Q4_K_M даёт ~75% сжатия с минимальной потерей качества: 7B влезает в 4 ГБ, 70B — в 40 ГБ. Ahead‑of‑time квантизация плюс KV‑cache quantization на лету.
Кастомные CUDA‑kernels под Tensor Cores. Сборка флагом -DGGML_CUDA=ON. Параметр --n-gpu-layers 99 офлоадит все слои в VRAM, остальное — в RAM. Подходит A10, RTX 4090, A100.
HTTP‑сервер с эндпоинтами /v1/chat/completions, /v1/completions, /v1/embeddings. Существующие клиенты OpenAI SDK подключаются без правок. Мульти‑юзер, slot‑management, web UI.
Apple Silicon — first‑class через Metal и Accelerate. AMD — через HIP/ROCm. Любая GPU с Vulkan‑драйвером (включая Intel Arc). MUSA для Moore Threads. Один кодовый путь — семь backend'ов.
Draft‑модель предлагает токены, target‑модель верифицирует одним forward'ом. Build b8738 (апрель 2026) добавил настоящий tensor parallelism через Split Mode Graph — до 3‑4× ускорение на multi‑GPU.
Замер prompt processing (PP) и token generation (TG) для разных квантизаций, batch‑size и контекстов. Флаг -d depth1,depth2 тестирует производительность на разной глубине KV‑cache.
Слои, не помещающиеся в VRAM, остаются в RAM. Веса грузятся через mmap — старт за секунды. 70B Q4 крутится на 48 ГБ VRAM + RAM, 405B — на A100 80 ГБ + 256 ГБ системной памяти.
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.