Два новых open-source проекта предлагают способ запускать несколько ИИ-моделей на одном GPU с динамическим управлением памятью и без потери производительности.
TurboQuant от Google: ИИ научили экономить память
Исследования
Google представила алгоритм TurboQuant, сжимающий рабочую память ИИ в 6 раз, что может кардинально изменить подход к инфраструктуре для нейросетей.
Alibaba представила Qwen3.6-Plus – модель для корпоративного ИИ, способную самостоятельно разрабатывать код и анализировать визуальный контент в реальных рабочих сценариях.
Люди, которые заставляют GPU работать по-настоящему быстро: внутри команды Together AI
Инфраструктура
Как небольшая исследовательская группа превращает теоретические возможности видеочипов в реальную производительность ИИ-систем – история команды Together AI.
Sony AI в марте: книга о диффузных моделях, более десяти принятых статей и признание исследователя
Технический контекст • Исследования
Sony AI подвела итоги марта: новая книга о генеративных моделях, пакет исследований для ICASSP 2026 и признание Элис Сян в списке лучших.
Как Salesforce обучает ИИ-агентов без огромных затрат
Технический контекст • Исследования
Salesforce AI Research рассказала, как перестраивает обучение языковых моделей в агентную эпоху – и почему старые подходы здесь уже не работают.
Исследователи разработали специализированный тест для ИИ-систем, применяемых в архитектуре, строительстве и инженерии. Результаты его прохождения оказались весьма отрезвляющими.
Sanctuary AI продемонстрировала, как их гидравлическая рука самостоятельно переориентирует предметы в захвате – без предварительно заученных движений и разметки данных.
Holo3: новый рекорд в управлении компьютером с помощью ИИ
Технический контекст • Продукты
Компания Hcompany представила Holo3 – агентную модель, установившую рекорд на ключевом бенчмарке по управлению компьютером и нацеленную на автономную работу в корпоративной среде.
Когда падает один GPU, система не должна падать целиком
Технический контекст • Инфраструктура
Команды Mooncake и Volcano Engine встроили в фреймворк SGLang механизм эластичного параллелизма экспертов, позволяющий выдержать частичные сбои без перезапуска.