😈 Вот честное благородное слово: если бы в составе названия нашей модели было слово «лама», мы бы никогда не назвали саму модель НЕМОТРОН. Это имя для злого трансформера, а не для ризонинг-модели. Но у Nvidia свое мнение на этот счет, поэтому встречаем новое семейство моделей Nemotron. В составе семьи:
nvidia/Llama-3_1-Nemotron-Ultra-253B-v1 nvidia/Llama-3_3-Nemotron-Super-49B-v1 nvidia/Llama-3.1-Nemotron-Nano-8B-v1✅ По параметрам – сами видите, как разогнали, и в таком виде может даже тягаться с DeepSeek-R1, чем, собственно, и занимается на бенчмарках. Модель получилась большая, поэтому вторая и третья позиции в списке – для тех, кто предпочитает полегче.
✅ Ну, а так – новейшая модель для рассуждений, проходит пост-обучение, изучает «человеческие предпочтения», длина контекста - 128K токенов. Для развертывания во всю ширь требует 8xH100.
✅Те, что поменьше, обещают «компромисс между точностью и эффективностью», так что сами смотрите, что вам нужнее.
❤️ Код открытый, коммерческое использование разрешено, даже процесс обучения описан. Смотрим!
🙂 Artificial Intelion