Из ТГ канала

🙂Снова начинаем пост со слова Deep – но это последний раз, обещаем!
🔣 Все дело в том, что мы посмотрели полезное и познавательное видео Andrej Karpathy "Deep Dive into LLMs like ChatGPT". Автор - бывший сотрудник OpenAI и бывший директор Tesla по ИИ – на протяжении трех с половиной часов рассказывает, как работают LLM и главное, как нам с ними взаимодействовать.
*️⃣ Если по какой-то причине вы не можете выделить 3,5 часа, чтобы прокачаться в ML, то вот основной тайминг, можно включиться на той теме, которая вам ближе:
00:07:47 – токенизация;
00:20:11 – внутреннее устройство нейросети;
00:31:09 – GPT-2: обучение и вывод;
00:42:52 – Llama 3.1;
00:59:23 – от предварительной подготовки к постобучению;
01:20:32 – галлюцинации и память;
02:01:11 – почему модели испытывают трудности с орфографией;
02:07:28 – контролируемая тонкая настройка на обучение с подкреплением;
02:27:47 – DeepSeek-R1;
02:42:07 – AlphaGo;
02:48:26 – RLHF;
03:09:39 – просмотр будущих событий;
03:18:34 – где найти LLM;
03:21:46 – выводы.
🙂 Artificial Intelion
Новости AI
#AI
#LLM
#DeepLearning
Рекомендуем прочесть:
- Как посчитать VRAM для LLM: подробный гайд по расчету видеопамяти для моделей машинного обучения
- Tesla A100 40GB vs A100 80GB: Как выбрать GPU для ИИ, LLM и Data Science
- Что такое GPU сервер и как его арендовать?
- Tesla A10 vs RTX 3090 — оптимальный выбор GPU для ваших нейросетей
- Зачем вам нужна Tesla A100 80 ГБ — и почему в «Интелион Облако» она раскрывается на максимум