Long-context: код, репозитории, документы
Контекст 10M токенов — самый большой среди open-weight моделей. Анализ целых репозиториев, длинных PDF, многочасовых транскриптов без RAG.
Контекст 10M токенов — самый большой среди open-weight моделей. Анализ целых репозиториев, длинных PDF, многочасовых транскриптов без RAG.
Pretrain на 40T токенов, 200+ языков, включая русский. Один из лучших open-weight LLM по качеству на не-английском языке в 2025.
Native multimodality через early fusion и MetaCLIP. До 5 изображений на запрос. Image reasoning, captioning, analysis без отдельного OCR.
Другая задача? Напишите нам — подберём конфигурацию.
Флагман инструкт-серии. 16 экспертов, контекст 10M токенов, нативный vision (до 5 изображений). Q4 влезает в одну H100/A100 80 ГБ.
H100 80 ГБ (Q4 / int4) / A100 80 ГБ (Q4)
Базовая (pretrained) версия без RLHF. Подходит для fine-tuning под доменные задачи и custom alignment.
H100 80 ГБ / A100 80 ГБ (Q4)
Unsloth Dynamic GGUF в Q4_K_M. Запускается через llama.cpp, поддерживает GPU offload. Удобный вариант для смешанной CPU+GPU инференции.
A100 80 ГБ (offload OK) / 2× RTX 3090
Q8_0 квантизация — близко к bf16 по качеству, требует мульти-GPU. Для production-нагрузок с упором на качество и длинный контекст.
2× H100 80 ГБ / 2× A100 80 ГБ
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.