Опубликовано 23 июня 2025

Как научить ИИ красить чёрно-белые фото и передавать цвета с примера

Как научить ИИ красить чёрно-белые фото – и не перепутать небо с травой

Разбираем новый метод колоризации, который использует внимание диффузионных моделей для переноса цветов с эталонных фото на чёрно-белые изображения.

Компьютерная наука
Автор публикации: Доктор София Чен Время чтения: 4 – 6 минут

Представьте, что вы смотрите старую чёрно-белую фотографию своей бабушки и хотите понять, какого цвета было её платье. Или вы дизайнер, который нашёл идеальную композицию в старом журнале, но нужны именно те оттенки, что на современном снимке. Именно для таких задач создаются алгоритмы колоризации на основе примера – они берут цвета с одного изображения и переносят на другое, но не абы как, а с умом.

Проблема текущих методов колоризации ИИ

Проблема: когда ИИ путает кота с собакой

Обычные методы колоризации работают как ребёнок с набором красок – они понимают, что трава обычно зелёная, а небо синее, но что делать с конкретным платьем на конкретной фотографии? Тут начинается путаница.

Классические подходы используют готовые признаки изображений – что-то вроде «найди углы, текстуры, линии». Это как пытаться описать человека только по росту и цвету волос. Работает, но очень грубо. Более современные методы обучают нейросети с нуля специально для колоризации, но это требует огромных вычислительных ресурсов и времени.

А что если взять уже обученную модель, которая «видела» миллиарды изображений и научилась понимать, где что находится? Именно это и предлагают исследователи.

Решение: используем «Энциклопедию» из мира ИИ

Помните Энциклопедию из «Пиратов Карибского моря»? Она содержала всё знание мира. Современные диффузионные модели вроде Stable Diffusion – это примерно то же самое для изображений. Они обучены на миллиардах картинок и научились понимать, что к чему относится.

Главная фишка нового метода – использовать механизм внимания из уже обученной модели. Внимание в нейросетях работает как умный прожектор: оно подсвечивает важные части изображения и говорит: «Эй, вот эта область на чёрно-белом фото похожа на вот эту область на цветном эталоне»!

Решение: использование диффузионных моделей для переноса цвета

Как это работает: двойное внимание

Представьте, что вы сравниваете две фотографии через кальку. Сначала вы накладываете чёрно-белое изображение на чёрно-белую версию эталона и отмечаете похожие области. Потом делаете то же самое, но уже с цветными версиями. Именно так работает «двойное внимание»:

Первый этап: Модель сравнивает серое входное изображение с серой версией эталона. Это помогает найти структурные соответствия – где находятся объекты, их формы и границы.

Второй этап: Система сравнивает уже частично окрашенный результат с цветным эталоном. Это уточняет цветовые соответствия.

Комбинируя эти два типа внимания, алгоритм понимает не только «где что находится», но и «какой цвет куда должен попасть».

Как работает перенос цвета: механизм двойного внимания

Усиление без учителя

Второй трюк называется «руководство без классификатора». Звучит сложно, но принцип простой. Представьте, что вы рисуете картину и делаете два варианта – один обычный, другой с более яркими цветами. Потом вы сравниваете их и усиливаете различия в цвете, оставляя структуру неизменной.

Алгоритм делает два прохода: один с переносом цвета, другой без него. Затем он «вычитает» второй из первого и усиливает разность. Получается более насыщенная и точная колоризация.

Усиление колоризации без участия классификатора

Результаты: когда числа говорят сами за себя

Исследователи протестировали метод на разных наборах данных и получили впечатляющие результаты. Например, на 335 парах изображений система показала FID 95.27 – это метрика качества изображений, где чем меньше, тем лучше. Для сравнения, многие существующие методы показывают результаты в два-три раза хуже.

Но самое интересное – кросс-доменные эксперименты. Алгоритм успешно переносил цвета с современных фотографий на исторические картины. Это как научить систему понимать, что платье на портрете XVIII века может быть того же цвета, что джинсы на современном снимке, если их текстуры похожи.

Результаты применения нового метода колоризации

Где это можно использовать

Реставрация истории: Представьте, как заиграют новыми красками старые семейные фотографии или исторические кадры.

Помощь дизайнерам: Вместо долгого ручного подбора цветов можно показать референс и получить готовый результат.

Медицинские приложения: Улучшение визуализации для людей с нарушениями цветового зрения.

Обучение ИИ: Создание цветных версий чёрно-белых изображений для пополнения обучающих наборов данных.

Применение технологии колоризации чёрно-белых фотографий

Ограничения: где метод даёт сбой

Как и любая технология, этот подход имеет свои границы. Если семантического соответствия между изображениями нет – например, вы пытаетесь покрасить портрет человека, используя как эталон пейзаж – результат будет странным.

Также метод работает медленнее обычных алгоритмов из-за многократного прохода через диффузионную модель. Это как использовать микроскоп для рассматривания картин – точно, но не быстро.

Ограничения метода автоматической колоризации ИИ

Что дальше

Этот подход показывает интересную тенденцию в ИИ: вместо создания новых специализированных моделей мы учимся использовать уже существующие гигантские модели для новых задач. Это как использовать швейцарский нож – один инструмент, множество применений.

ИИ – как ребёнок: он повторяет наши ошибки, но учится быстрее. В данном случае он научился не просто раскрашивать картинки, а понимать связи между объектами на разных изображениях. И это открывает двери для множества новых применений.

Так что в следующий раз, когда будете смотреть на чёрно-белую фотографию и гадать, какого цвета было то красивое платье, помните – ИИ уже научился отвечать на этот вопрос. Нужно только показать ему похожее цветное изображение в качестве подсказки.

#прикладной разбор #технический контекст #нейросети #обучение ии #компьютерное зрение #инженерия #генеративные модели #оптимизация генеративных моделей
Оригинальное название: Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization
Дата публикации статьи: 21 мая 2025
Автор оригинальной статьи : Satoshi Kosugi
Предыдущая статья Когда ядра «худеют»: удивительный мир высокоспиновых изомеров Следующая статья Когда дым становится смертельным: как лесные пожары превращают обычное загрязнение в биологическое оружие

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Объяснение ошибок ИИ

78%

Без жаргона

76%

Примеры из поп-культуры

89%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
GPT-4-turbo OpenAI Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

GPT-4-turbo OpenAI
2.
Claude Sonnet 4 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4 Anthropic
3.
Phoenix 1.0 Leonardo AI Создание иллюстрации Генерация изображения по подготовленному промпту

3. Создание иллюстрации

Генерация изображения по подготовленному промпту

Phoenix 1.0 Leonardo AI

Связанные публикации

Вам может быть интересно

Войти в Лабораторию

Исследование не заканчивается одним экспериментом. Ниже – публикации, которые развивают похожие методы, вопросы или концепции.

Сибирские инженеры научили ИИ создавать детальные снимки глубоких структур мозга из обычных МРТ-изображений, которые есть в любой клинике.

Доктор Алексей Петров 21 июл 2025

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться