Тестирование ИИ 26 августа 2025 6 мин чтения

Gemini 2.5 Flash Image (nano banana) против генератора картинок ChatGPT - сравнение возможностей

модель для создания и редактирования изображений. В этой статье сравним её с генератором изображений в ChatGPT -- GPT-4 Image.

26 августа Google представил Gemini 2.5 Flash Image (nano banana) -- модель для создания и редактирования изображений.
В этой статье сравним её с генератором изображений в ChatGPT -- GPT-4 Image.
Проверим, в каких случаях лучше использовать ту или иную модель.

---

Тест: заполненный до краёв бокал вина

Это уже классический тест для моделей генерации изображений.
Дело в том, что такие сцены редко встречаются в реальных фотографиях, поэтому модель должна понимать, что значит «полный» применительно к жидкости.

Результат:
GPT-4 Image справляется с этой задачей.
Gemini Flash -- нет.
GPT-4 Image - полный бокал вина
GPT-4 Image - справляется с задачей
Gemini Flash - полный бокал вина
Gemini Flash - не справляется
---

Редактирование изображений: замена фона

Одна из сильных сторон Gemini Flash Image -- редактирование картинок.
Мы взяли несколько фотографий игрушек сложной формы и попробовали заменить на них фон.

Оригиналы:

Оригинальное фото игрушки 1
Оригинальное фото 1
Оригинальное фото игрушки 2
Оригинальное фото 2
Результат:
Gemini Flash заменяет фон качественно, не повреждая форму игрушки.
Gemini Flash - замена фона на подводный
Gemini Flash - подводный фон
Gemini Flash - аксолотль в комнате
Gemini Flash - в комнате

ChatGPT же превращает игрушки в полуживых существ.

ChatGPT - аксолотль в комнате
ChatGPT - искажает форму игрушки

На втором тесте видно, что Gemini Flash может даже изменить позу игрушки, сохранив при этом правильную форму.

Эта функция будет особенно полезна для интернет-магазинов, так как позволяет создавать красивые фотографии товаров, не искажая их внешний вид.

---

Фантастическая сцена в стиле киберпанк

Промт:
Фотореалистичный крупный план молодой азиатки в форме, стоящей у полузакрытой двери герметичного хранилища в подземном комплексе и смотрящей сквозь неё с тревожным выражением лица. Стиль киберпанк. Высококачественное цифровое искусство, чёткий фокус.
Результат:
Картинка неплоха, но Gemini Flash не справился с полузакрытой дверью -- она изображена полностью открытой. Также изображение выглядит слегка мультяшным.

GPT-4 Image создал более реалистичное изображение и корректно передал полузакрытую дверь.
Gemini Flash - киберпанк сцена
Gemini Flash - мультяшный стиль
GPT-4 Image - киберпанк сцена
GPT-4 Image - более реалистично

Для сравнения -- результат китайского конкурента, Qwen Image. Интересно, что общая композиция Qwen Image и Gemini Flash похожа, что может указывать на использование одинаковых датасетов для обучения, либо одна модель могла использоваться для создания данных для другой.

Qwen Image - киберпанк сцена
Qwen Image - схожая композиция с Gemini
---

Летающие коты: радостно возвращаются с юга весной

С летающими котами возникла незадача:
Gemini Flash создал мультяшное изображение, а когда мы запросили реалистичное фото и вовсе отказался выполнять запрос.

Gemini Flash - летающий кот
Gemini Flash - мультяшный стиль
GPT-4 Image - летающий кот
GPT-4 Image - без проблем

Очевидно, имеет место скрытая цензура, направленная на то, чтобы не позволять пользователям создавать реалистичные изображения несуществующих объектов.

GPT-4o, напротив, рисует летающих котов без проблем.

Однако, если взять реальное фото и попросить заменить на нём птиц котами -- Gemini Flash справляется без проблем.

Gemini Flash - замена птиц котами
Gemini Flash - замена птиц котами

Нам также удалось приделать существующему коту крылья и создать изображение, где он взлетает.
Качество, конечно, могло бы быть лучше, но в целом результат налицо. Особенно впечатляет выражение кота.

Кот с крыльями
Кот с добавленными крыльями
Кот взлетает
Кот взлетает
---

Парадокс Gemini Flash

Модель сопротивляется созданию новых реалистичных изображений нереальных объектов,
но при этом охотно редактирует реальные фото, добавляя в них невозможное.

Получается парадокс:
создавать -- нельзя, редактировать -- можно.

---

Итоги

  • Для редактирования фото и замены фона -- Gemini Flash подходит лучше всего.
    Он аккуратно обрабатывает сложные формы и сохраняет детали объектов.
  • Для создания новых реалистичных изображений -- лучше использовать другие сервисы.
    Gemini Flash сильно зацензурен и слабо справляется с генерацией нереальных, но фотореалистичных сцен.
---
Вывод:
Gemini Flash -- сильный инструмент для редактирования, но не для свободной генерации.
GPT-4 Image остаётся более универсальным решением, особенно когда важна реалистичность и точность.

Готовы внедрить ИИ в свой бизнес?

Поможем выбрать подходящие модели для генерации и редактирования изображений в ваших проектах

Связаться с Meanotek