ИИ: События
Открытая модель LightOnOCR-2 превзошла Claude, GPT-5 и другие в распознавании таблиц
Продукты
Компания LightOn выпустила открытую модель LightOnOCR-2, которая превзошла ведущие коммерческие ИИ в задаче извлечения таблиц из документов.
Интеллектуальный хаб темы
Для объективной оценки развития технологий требуются метрики, выходящие за рамки маркетинговых лозунгов. В этой подборке мы собираем материалы, посвященные методологиям тестирования, стандартизированным наборам данных и инструментам измерения производительности нейросетевых моделей. Мы анализируем, как формируются современные испытания – от лингвистических тестов и логических задач до оценки этических ограничений и энергоэффективности алгоритмов.
ИИ: События
Продукты
Компания LightOn выпустила открытую модель LightOnOCR-2, которая превзошла ведущие коммерческие ИИ в задаче извлечения таблиц из документов.
ИИ: События
Инфраструктура
Red Hat и NVIDIA совместно добились лидирующих показателей в независимом тесте MLPerf Inference v6.0, охватывающем задачи распознавания изображений, речи и рассуждений.
Исследователи разработали специализированный тест для ИИ-систем, применяемых в архитектуре, строительстве и инженерии. Результаты его прохождения оказались весьма отрезвляющими.
ИИ: События
Технический контекст • Продукты
Компания Hcompany представила Holo3 – агентную модель, установившую рекорд на ключевом бенчмарке по управлению компьютером и нацеленную на автономную работу в корпоративной среде.
ИИ: События
Технический контекст • Инфраструктура
AMD представила результаты MLPerf Inference 6.0: новые рекорды производительности, первые тесты видеогенерации и масштабирование до кластерного уровня на GPU Instinct MI355X.
ИИ: События
Инфраструктура
Red Hat AI заняла первые места в свежем раунде бенчмарка MLPerf Inference v6.0, протестировав сразу три модели на видеокартах NVIDIA и AMD.
Исследователи представили EvoClaw – систему тестирования ИИ-агентов, которая проверяет их способность работать с постоянно меняющимися проектами.
Компания Scale AI запустила Voice Showdown – бенчмарк для оценки голосовых ИИ-моделей, основанный на реальных предпочтениях людей и живой речи.
Исследователи создали специальный тест безопасности для языковых моделей, учитывающий особенности тайского языка и культуры – этот проект уже принят на крупный ИИ-воркшоп.
Хотите знать о новых
экспериментах первыми?
Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.