Из ТГ канала

❓ Как добраться до труднодоступных мест? Для ответа на этот вопрос OpenAI выпустили BrowseComp — бенчмарк, который показывает, кто из ИИ-агентов реально копает в интернете, а кто так, в полссылочки.
✅ Там почти 1,5 тысячи задач на терминологию, уточнения, контекст - ну, вот это вот всё.
✅ Задачи реально сложные, из серии "Давайте найдем примечания к статье, опубликованной в сборнике студенческих работ Гарвардского университета за 1989 год, который, возможно, был оцифрован в 2003-м". Ну, мы немножко утрируем, но имеется в виду реально глубокий поиск для серьезных исследований.
*️⃣Учитываются только однозначные ответы, без вот этих хитростей с "текст недоступен" и "URL гипотетический".
*️⃣Таким образом можно выявить модели, которые действительно умеют в DeepSearch и те, кто просто притворяется, что готов работать. Это наверняка скажется не рейтинге моделей для университетов и исследовательских компаний.
❤️Но и простым юзерам не помешает знать, кто из ИИ-агентов действительно может побегать за них по библиотекам!
🙂 Artificial Intelion
Новости AI
#ии
#OpenAI
#BrowseCamp
Рекомендуем прочесть:
- Tesla A100 40GB vs A100 80GB: Как выбрать GPU для ИИ, LLM и Data Science
- Что такое GPU сервер и как его арендовать?
- Tesla A10 vs RTX 3090 — оптимальный выбор GPU для ваших нейросетей
- Зачем вам нужна Tesla A100 80 ГБ — и почему в «Интелион Облако» она раскрывается на максимум
- От идеи до реализации за часы — как AI меняет работу и быт