Тематика #бенчмарки ИИ

ИИ: События

Открытая модель LightOnOCR-2 превзошла Claude, GPT-5 и другие в распознавании таблиц

Продукты

Компания LightOn выпустила открытую модель LightOnOCR-2, которая превзошла ведущие коммерческие ИИ в задаче извлечения таблиц из документов.

LightOn AIwww.lighton.ai 7 апр 2026

ИИ: События

Red Hat и NVIDIA показали рекордные результаты в тестах производительности ИИ

Инфраструктура

Red Hat и NVIDIA совместно добились лидирующих показателей в независимом тесте MLPerf Inference v6.0, охватывающем задачи распознавания изображений, речи и рассуждений.

Red Hatwww.redhat.com 3 апр 2026

ИИ: События

AEC-Bench: как проверить готовность ИИ к работе в строительстве

Исследования

Исследователи разработали специализированный тест для ИИ-систем, применяемых в архитектуре, строительстве и инженерии. Результаты его прохождения оказались весьма отрезвляющими.

Nomicwww.nomic.ai 2 апр 2026

ИИ: События

Holo3: новый рекорд в управлении компьютером с помощью ИИ

Технический контекст • Продукты

Компания Hcompany представила Holo3 – агентную модель, установившую рекорд на ключевом бенчмарке по управлению компьютером и нацеленную на автономную работу в корпоративной среде.

Hugging Facehuggingface.co 2 апр 2026

ИИ: События

AMD на MLPerf Inference 6.0: миллион токенов в секунду и первый выход в видеогенерацию

Технический контекст • Инфраструктура

AMD представила результаты MLPerf Inference 6.0: новые рекорды производительности, первые тесты видеогенерации и масштабирование до кластерного уровня на GPU Instinct MI355X.

AMDwww.amd.com 2 апр 2026

ИИ: События

Red Hat AI показала лучшие результаты в MLPerf Inference v6.0 – и вот что за этим стоит

Инфраструктура

Red Hat AI заняла первые места в свежем раунде бенчмарка MLPerf Inference v6.0, протестировав сразу три модели на видеокартах NVIDIA и AMD.

Red Hatwww.redhat.com 1 апр 2026

ИИ: События

EvoClaw: новый бенчмарк для проверки ИИ в реальной разработке

Исследования

Исследователи представили EvoClaw – систему тестирования ИИ-агентов, которая проверяет их способность работать с постоянно меняющимися проектами.

OpenHandsopenhands.dev 23 мар 2026

ИИ: События

Voice Showdown: первый открытый ринг для голосовых ИИ-моделей

Продукты

Компания Scale AI запустила Voice Showdown – бенчмарк для оценки голосовых ИИ-моделей, основанный на реальных предпочтениях людей и живой речи.

Scale AIscale.com 21 мар 2026

ИИ: События

ThaiSafetyBench: как проверяют безопасность ИИ на тайском языке

Безопасность

Исследователи создали специальный тест безопасности для языковых моделей, учитывающий особенности тайского языка и культуры – этот проект уже принят на крупный ИИ-воркшоп.

Typhoonopentyphoon.ai 21 мар 2026

бенчмарки ии

Открытая модель LightOnOCR-2 превзошла Claude, GPT-5 и другие в распознавании таблиц

Red Hat и NVIDIA показали рекордные результаты в тестах производительности ИИ

AEC-Bench: как проверить готовность ИИ к работе в строительстве

Holo3: новый рекорд в управлении компьютером с помощью ИИ

AMD на MLPerf Inference 6.0: миллион токенов в секунду и первый выход в видеогенерацию

Red Hat AI показала лучшие результаты в MLPerf Inference v6.0 – и вот что за этим стоит

EvoClaw: новый бенчмарк для проверки ИИ в реальной разработке

Voice Showdown: первый открытый ринг для голосовых ИИ-моделей

ThaiSafetyBench: как проверяют безопасность ИИ на тайском языке