Тематика #бенчмаркинг агентов

ИИ: События

Holo3: новый рекорд в управлении компьютером с помощью ИИ

Технический контекст • Продукты

Компания Hcompany представила Holo3 – агентную модель, установившую рекорд на ключевом бенчмарке по управлению компьютером и нацеленную на автономную работу в корпоративной среде.

Hugging Facehuggingface.co 2 апр 2026

ИИ: События

Holo3: новый рекорд ИИ-агентов для работы за компьютером

Продукты

Компания H объявила о выпуске Holo3 – модели, которая установила новый рекорд в ведущем тесте для ИИ-агентов, управляющих компьютером.

H Companyhcompany.ai 31 мар 2026

ИИ: События

Когда агент не знает ответа: как поисковые модели учатся находить то, что раньше было недосягаемо

Продукты

Mixedbread выпустила Search v3 – поисковую модель, которая заметно сокращает разрыв между тем, что агент находит в реальности, и тем, что теоретически можно обнаружить в данных.

Mixedbreadwww.mixedbread.com 25 мар 2026

ИИ: События

MolmoWeb: открытый ИИ-агент для автономной работы в браузере

Продукты

Институт Аллена представил открытого веб-агента MolmoWeb. Он управляет браузером визуально, подобно человеку, и обходит многих проприетарных конкурентов.

Ai2allenai.org 25 мар 2026

ИИ: События

coSTAR: как в Databricks быстро и без поломок запускают ИИ-агентов

Разработка

Databricks разработала собственный подход к созданию ИИ-агентов – систему coSTAR, которая позволяет команде работать быстро, не теряя контроль над качеством.

Databrickswww.databricks.com 22 мар 2026

ИИ: События

Как оценить навыки ИИ-агента: к чему стоит присмотреться

Разработка

Разбираемся, почему оценка навыков ИИ-агентов – это не формальность, а ключевой шаг к созданию систем, которым можно доверять реальные задачи.

OpenHandsopenhands.dev 18 мар 2026

ИИ: События

Как понять, что ваш ИИ-агент работает правильно, а не просто выглядит убедительно

Разработка

Компания LightOn представила оценочную систему NOVA. Рассказываем, как она устроена и почему «субъективного ощущения» недостаточно для проверки ИИ-агентов.

LightOn AIwww.lighton.ai 12 мар 2026

ИИ: События

OpenAI и федеральные разрешения: как ИИ ускоряет одну из самых медленных бюрократических систем США

Регулирование

OpenAI в сотрудничестве с национальной лабораторией разработали инструмент оценки ИИ-агентов для ускорения федеральных согласований и уже наблюдают первые измеримые результаты.

OpenAIopenai.com 6 мар 2026

ИИ: События

Мощный ИИ-агент без облака: как LFM2-24B-A2B работает прямо на вашем компьютере

Продукты

Liquid AI представила модель LFM2-24B-A2B, способную запускать ИИ-агентов с вызовом инструментов прямо на потребительском оборудовании – без облака и задержек.

Liquidwww.liquid.ai 6 мар 2026