Две исследовательские работы команды Typhoon приняты на конференцию EACL 2026: они посвящены оценке речевых моделей и работе с длинными аудиозаписями.
ИИ: События
Маленькая модель, которая слышит лучше: как из мультимодального ИИ сделать эффективный аудиоэмбеддер
Исследования
Исследователи показали, как превратить крупную мультимодальную модель в компактный аудиоинструмент, превосходящий конкурентов при обучении на объёме данных в 25 раз меньше.
Yandex AI Studio обновила инструмент поиска по файлам: теперь ИИ-агенты могут работать с таблицами, аудио и видео, находя нужное в корпоративных базах знаний.
ИИ: События
Как ИИ учится «слышать» важное: извлечение данных из живой речи в реальном времени
Разработка
Разбираемся, как современные системы распознавания речи научились выделять из разговора конкретные данные – телефоны, адреса и почту – прямо на лету.
AssemblyAI выпустила модель Universal-3 Pro с поддержкой шести языков и переключением между ними прямо в середине речи без ручных настроек.
AssemblyAI представила технологию, которая умеет в реальном времени определять, кто из участников разговора говорит – даже в многолюдных встречах.
ИИ: События
Hume AI открыла исходный код TADA – модели, которая синхронизирует текст и звук
Разработка
Hume AI выпустила в открытый доступ TADA – речевую модель, которая покадрово выравнивает текст и аудио, делая синтез речи быстрым и предсказуемым.
Новая функция в ElevenCreative позволяет превратить текст в готовую аудиокнигу без посещения студии звукозаписи и привлечения профессиональных дикторов.
Индийский стартап Sarvam AI представил Bulbul V3 – модель синтеза речи, поддерживающую 15 языков и способную клонировать голоса по короткому аудиообразцу.