Из ТГ канала

😈 Вот честное благородное слово: если бы в составе названия нашей модели было слово «лама», мы бы никогда не назвали саму модель НЕМОТРОН. Это имя для злого трансформера, а не для ризонинг-модели. Но у Nvidia свое мнение на этот счет, поэтому встречаем новое семейство моделей Nemotron.
В составе семьи:
nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
nvidia/Llama-3_3-Nemotron-Super-49B-v1
nvidia/Llama-3.1-Nemotron-Nano-8B-v1
✅ По параметрам – сами видите, как разогнали, и в таком виде может даже тягаться с DeepSeek-R1, чем, собственно, и занимается на бенчмарках. Модель получилась большая, поэтому вторая и третья позиции в списке – для тех, кто предпочитает полегче.
✅ Ну, а так – новейшая модель для рассуждений, проходит пост-обучение, изучает «человеческие предпочтения», длина контекста - 128K токенов. Для развертывания во всю ширь требует 8xH100.
✅Те, что поменьше, обещают «компромисс между точностью и эффективностью», так что сами смотрите, что вам нужнее.
❤️ Код открытый, коммерческое использование разрешено, даже процесс обучения описан. Смотрим!
🙂 Artificial Intelion
Новости AI
#ии
#nvidia
#nemotron
Рекомендуем прочесть:
- Tesla A100 40GB vs A100 80GB: Как выбрать GPU для ИИ, LLM и Data Science
- Что такое GPU сервер и как его арендовать?
- Tesla A10 vs RTX 3090 — оптимальный выбор GPU для ваших нейросетей
- Зачем вам нужна Tesla A100 80 ГБ — и почему в «Интелион Облако» она раскрывается на максимум
- От идеи до реализации за часы — как AI меняет работу и быт