❓ Как добраться до труднодоступных мест? Для ответа на этот вопрос OpenAI выпустили BrowseComp — бенчмарк, который показывает, кто из ИИ-агентов реально копает в интернете, а кто так, в полссылочки.✅ Там почти 1,5 тысячи задач на терминологию, уточнения, контекст - ну, вот это вот всё.
✅ Задачи реально сложные, из серии "Давайте найдем примечания к статье, опубликованной в сборнике студенческих работ Гарвардского университета за 1989 год, который, возможно, был оцифрован в 2003-м". Ну, мы немножко утрируем, но имеется в виду реально глубокий поиск для серьезных исследований.
*️⃣Учитываются только однозначные ответы, без вот этих хитростей с "текст недоступен" и "URL гипотетический".
*️⃣Таким образом можно выявить модели, которые действительно умеют в DeepSearch и те, кто просто притворяется, что готов работать. Это наверняка скажется не рейтинге моделей для университетов и исследовательских компаний.
❤️Но и простым юзерам не помешает знать, кто из ИИ-агентов действительно может побегать за них по библиотекам!
🙂 Artificial Intelion