26 августа Google представил Gemini 2.5 Flash Image (nano banana) -- модель для создания и редактирования изображений.
В этой статье сравним её с генератором изображений в ChatGPT -- GPT-4 Image.
Проверим, в каких случаях лучше использовать ту или иную модель.
Тест: заполненный до краёв бокал вина
Это уже классический тест для моделей генерации изображений.
Дело в том, что такие сцены редко встречаются в реальных фотографиях, поэтому модель должна понимать, что значит «полный» применительно к жидкости.
GPT-4 Image справляется с этой задачей.
Gemini Flash -- нет.


Редактирование изображений: замена фона
Одна из сильных сторон Gemini Flash Image -- редактирование картинок.
Мы взяли несколько фотографий игрушек сложной формы и попробовали заменить на них фон.
Оригиналы:


Gemini Flash заменяет фон качественно, не повреждая форму игрушки.


ChatGPT же превращает игрушки в полуживых существ.

На втором тесте видно, что Gemini Flash может даже изменить позу игрушки, сохранив при этом правильную форму.
Эта функция будет особенно полезна для интернет-магазинов, так как позволяет создавать красивые фотографии товаров, не искажая их внешний вид.
Фантастическая сцена в стиле киберпанк
Фотореалистичный крупный план молодой азиатки в форме, стоящей у полузакрытой двери герметичного хранилища в подземном комплексе и смотрящей сквозь неё с тревожным выражением лица. Стиль киберпанк. Высококачественное цифровое искусство, чёткий фокус.
Картинка неплоха, но Gemini Flash не справился с полузакрытой дверью -- она изображена полностью открытой. Также изображение выглядит слегка мультяшным.
GPT-4 Image создал более реалистичное изображение и корректно передал полузакрытую дверь.


Для сравнения -- результат китайского конкурента, Qwen Image. Интересно, что общая композиция Qwen Image и Gemini Flash похожа, что может указывать на использование одинаковых датасетов для обучения, либо одна модель могла использоваться для создания данных для другой.

Летающие коты: радостно возвращаются с юга весной
С летающими котами возникла незадача:
Gemini Flash создал мультяшное изображение, а когда мы запросили реалистичное фото и вовсе отказался выполнять запрос.


Очевидно, имеет место скрытая цензура, направленная на то, чтобы не позволять пользователям создавать реалистичные изображения несуществующих объектов.
GPT-4o, напротив, рисует летающих котов без проблем.
Однако, если взять реальное фото и попросить заменить на нём птиц котами -- Gemini Flash справляется без проблем.

Нам также удалось приделать существующему коту крылья и создать изображение, где он взлетает.
Качество, конечно, могло бы быть лучше, но в целом результат налицо. Особенно впечатляет выражение кота.


Парадокс Gemini Flash
Модель сопротивляется созданию новых реалистичных изображений нереальных объектов,
но при этом охотно редактирует реальные фото, добавляя в них невозможное.
Получается парадокс:
создавать -- нельзя, редактировать -- можно.
Итоги
- Для редактирования фото и замены фона -- Gemini Flash подходит лучше всего.
Он аккуратно обрабатывает сложные формы и сохраняет детали объектов. - Для создания новых реалистичных изображений -- лучше использовать другие сервисы.
Gemini Flash сильно зацензурен и слабо справляется с генерацией нереальных, но фотореалистичных сцен.
Gemini Flash -- сильный инструмент для редактирования, но не для свободной генерации.
GPT-4 Image остаётся более универсальным решением, особенно когда важна реалистичность и точность.
Готовы внедрить ИИ в свой бизнес?
Поможем выбрать подходящие модели для генерации и редактирования изображений в ваших проектах
Связаться с Meanotek