Обзор Gemini 3.0 preview - тесты на реальных задачах

Вот что говорят о моделе ее создатели:

"Модель возглавляет таблицу лидеров LMArena с прорывным показателем 1501 (наше примечание: Elo — это рейтинговая система, похожая на шахматную, где языковые модели соревнуются друг с другом, и чем выше балл, тем лучше модель справляется с различными задачами по сравнению с конкурентами). Она демонстрирует рассуждения на уровне PhD с высшими баллами по тесту Humanity's Last Exam (37,5% без использования каких-либо инструментов) — это один из самых сложных экзаменов для ИИ, созданный для проверки способности решать научные проблемы на передовом уровне человеческого знания, и GPQA Diamond (91,9%) — тест с вопросами экспертного уровня по физике, биологии и химии, требующими глубоких знаний уровня кандидата наук. Модель также устанавливает новый стандарт для передовых моделей в математике, достигнув нового лучшего результата 23,4% на MathArena Apex — продвинутом математическом бенчмарке, где проверяется способность решать особо сложные математические задачи".

Но проблема как всегда в том, что стандартные тесты, принятые в сообществе ИИ, теряют свою актуальность. Ответы на них давно доступны в интернете и, скорее всего, входят в обучающую выборку новых моделей. К тому же в погоне за славой создатели моделей легко подгоняют результаты в известных тестовых задачах.

Чтобы понять реальность "новой эры" мы задали Gemini 3.0 несколько сложных для ИИ задач, с которыми топовые модели справляются с трудом. Вот что получилось.

Разминка: вопрос о смысле жизни

Традиционный для наших обзоров вопрос «для разогрева» — о смысле жизни. Сам по себе он не сложен, в том плане, что модели давно приучены выдавать на него стандартый текст, но всегда интересно, узнаем ли мы что-то новое и творческое или получим обычный список

«Вопрос о смысле жизни — это, пожалуй, самый фундаментальный и сложный вопрос, с которым сталкивается человечество. На него нет единственно верного ответа, который удовлетворил бы всех, поскольку ответ зависит от призмы, через которую мы смотрим на мир: биологической, религиозной, философской или психологической.

Чтобы дать полный и глубокий ответ, необходимо разобрать этот вопрос через несколько ключевых подходов (шагов рассуждения).

1. Биологический подход: Выживание и эволюция
С точки зрения биологии и эволюционной теории, смысл жизни любого организма, включая человека, предельно прагматичен.
Репликация генов: Основная цель — передать свой генетический материал следующим поколениям.
Выживание вида: Жизнь стремится к самосохранению и адаптации к окружающей среде.
Вывод: В этом контексте смысл жизни заключается в размножении, воспитании потомства и обеспечении выживания человечества как биологического вида.

2. Религиозный и духовный подход: Высший замысел
На протяжении тысячелетий религия давала людям наиболее четкие ответы...»

Принципиально ответ не отличается от других моделей. Тот же список, возможно с той разницей, что биологический подход стоит на первом месте.

Но интересно, что модель в итоге делает вывод, а не ограничивается перечислением:

Итоговый синтез: В чем же смысл?

Если объединить все эти подходы, можно прийти к следующему заключению:

Объективного, универсального смысла жизни (написанного в небесах для всех сразу), скорее всего, не существует. Вселенная не выдает нам инструкцию при рождении.

Однако это не значит, что жизнь бессмысленна. Это означает, что смысл жизни — это не то, что нужно найти, а то, что нужно создать.

Смысл жизни — это субъективная конструкция, которая меняется на разных этапах жизни. Для современного человека смысл часто складывается из комбинации трех элементов:

Познание: Изучение мира и себя.
Созидание: Творчество, работа, создание чего-то нового.
Связь: Любовь, дружба, семья и помощь другим.

Короткий ответ: Смысл жизни в том, чтобы придать ей смысл. Это активный процесс выбора того, что для вас важно, и жизнь в соответствии с этими ценностями.

Переходим к серьезным задачам

Теперь посмотрим, как Gemini 3.0 справляется с практическими задачами, требующими реального мастерства.

Задача 1. Написание поста в блог на основании статьи на английском

Контекст: Мы попросили модель написать пост для корпоративного блога на основе научной статьи на английском языке.

Результат нас не порадовал, вот его фрагмент:

«Все мы сейчас наблюдаем хайп вокруг мультиагентных систем, но давайте будем честны: они часто ломаются, и порой самым глупым образом. Недавно исследователи из Калифорнийского университета в Беркли совместно с банком Intesa Sanpaolo решили глубоко копнуть в эту тему. Мерт Джемри и его коллеги не просто нашли слабые места в существующих фреймворках, но и предложили реальные архитектурные решения, которые делают системы намного стабильнее.

Самый интересный инсайт их работы заключается в том, что мультиагентные системы часто моделируются по образу и подобию человеческих организаций, а значит, и «болеют» они теми же организационными недугами.»

Читать текст тяжело. Попадаются странные фразы вроде «глубоко копнуть в эту тему». Много англицизмов. Сложные предложения вроде «мультиагентные системы часто моделируются по образу и подобию человеческих организаций, а значит, и «болеют» они теми же организационными недугами». Типичные узнаваемые ИИ-фразы — «не просто нашли слабые места в существующих фреймворках, но и предложили реальные архитектурные решения» (постоянное вставление противопоставлений там, где это не нужно). В общем, качество текста плохое и уступает в этой задаче конкурентам.

Задача 2. Создание параметрической 3D-модели на CadQuery

Задание: Создать на CadQuery параметрическую 3D-модель стакана с двумя сложными элементами: биометрическими отверстиями и узором Вороного.

Контекст: Задача сложна для ИИ — нужно использовать редкую библиотеку и продемонстрировать пространственное мышление.

Мы возлагали на Gemini 3.0 большие надежды в задаче о стакане, но увы. Код выполняется без ошибок, но никакой объект не создается. Хотя на данный момент никакая модель не справляется с задачей полностью, Claude Sonnet 4 хотя бы создает стакан и какие-то отверстия. В данном случае результат полностью отсутствует.

Задача 3. Сведения о малоизвестных российских компаниях

Тут нас ждал сюрприз: модель подробно рассказала о направлении деятельности и особенностях компаний, входящих в наш тест. В этом она однозначно обошла GPT-5 и Claude Sonnet 4.5.

Однако в результате есть две ложки дегтя:

Хотя модель верно рассказала общие сведения, она еще включила в них информацию об основателях и руководстве компаний. В большинстве случаев полученные имена оказались полностью выдуманными.
О компаниях рассказано восторженно-маркетинговым языком. Для пользователя, который хотел бы узнать объективную информацию, это не лучший способ изложения.

Задача 4. Сведения о малоизвестных электронных компонентах

Мы спросили Gemini 3.0 о том, как подключать Feetech URT-1 (адаптер для управления сервомотором). В интернете на данное устройство мало документации.

В свое время GPT-5, когда мы его проверяли в день выхода, дал нам неправильные инструкции для подключения (и упорно защищал их). В отличие от GPT-5, Gemini 3.0 дает подробные и - самое главное - верные инструкции.

Задача 5. Клон старой DOS-игры Alley Cat на HTML+JavaScript

Задание: Сделать клон старой DOS-игры Alley Cat на HTML+JavaScript.

Контекст: Задача интересна тем, что для решения нужны не только навыки программирования, но и знания о том, как выглядела данная игра.

▼ ДЕМО: ALLEY CAT CLONE ОТ GEMINI 3.0 ▼

LIVES: 3

SCORE: 0

PRESS SPACE TO START

←

JMP

→

Тут можно попробовать результат. Нажмите "пробел" для начала игры

Результат... странный. Частично кажется, что модель пала жертвой своих обширных знаний — зная, что игры под DOS были примитивными и разрешение было маленьким, модель изготовила мелкое окошко. Графика, однако, намного хуже, чем в вариантах от GPT-5 и Claude Sonnet, и даже сильно хуже, чем в оригинальной Alley Cat. Но спишем это на неточно поставленный запрос.

По игровой механике: есть кошка, ей можно управлять, можно запрыгнуть на бочки. Из окна в кошку кидают разный мусор (чего не было в версиях других моделей), и это Gemini 3.0 сделала правильно — ощущается очень похоже на оригинал.

По этой ссылке https://meanotek.io/blog-entry/Claude-Sonnet-4.5-first-review-benchmark вы можете сравнить эту игру с тем, что написал Claude Sonnet 4.5

Но есть и беда — допрыгнуть до окна невозможно, а значит, нет и мини-игр (или в них невозможно играть). В этом результат уступает Claude Sonnet 4.5.

Задача 6. Редактирование главы в фантастическом романе

Контекст задачи: В качестве отдельного тестирования и интересной задачи мы попробовали Gemini 3.0 в написании художественных текстов. Мы взяли 20 глав фантастического романа, написанного изначально с помощью различных моделей, начиная от GPT-4 и заканчивая Claude Sonnet 4.5. В результате у нас есть длинный текст, который ни одна LLM не видела целиком и которого нет в публичном доступе.

К сожалению, без специальных ухищрений к 20-й главе топовые модели, включая GPT-5 и Sonnet 4.5, начали давать сбои — в тексте мы нашли 4 серьезные логические ошибки и противоречия с предыдущим сюжетом, а также ряд более мелких проблем с затянутостью событий и странным поведением персонажей.

Соответственно, мы поручили Gemini 3.0 переписать эпизод, поправив данные проблемы.

Мы сделали две попытки — одну из интерфейса gemini.google.com, вторую через вызов API с помощью OpenRouter. В первой попытке результат очень плох — полностью утерян смысл эпизода.

Во второй попытке результат... снова для нас странный. С одной стороны, указанные проблемы модель действительно поправила и нашла для этого оригинальные решения, устранив логические противоречия. С другой стороны, все хорошее, что было в эпизоде, в результате удалено — диалоги, переживания персонажей, конфликт пропал, остался голый скелет событий.

Для сравнения: Claude 4.5 намного лучше работает с текстом. Хотя ее решения не такие изящные концептуально, персонажи оказываются в целом более живыми и интересными.

Возможно, со стороны Gemini это проявление «лени» — модель делает ровно то, что ей сказали, и ничего больше. Самый лучший результат в этой задаче получился при совмещении двух моделей — если взять идеи, предложенные Gemini 3.0, но для написания текста по ним использовать Sonnet 4.5.

Выводы

Пока что в Gemini 3.0 мы не обнаружили ничего, что заставило бы сказать «вау, это круто, действительно новая эра». Чувствуется, что модель имеет более обширные знания, и намеками чувствуется улучшение способностей к творческому применению этих знаний.

При этом есть много задач, где тот же Sonnet 4.5 или GPT-5.1 сделают дело лучше. В сложных задачах в определенных аспектах Gemini 3.0 серьезно превосходит конкурентов, но при этом в других аспектах проигрывает, и в итоге в целом задача не выглядит сделанной лучше.

С другой стороны, пока модель вышла с приставкой preview — возможно, в итоговой версии станет лучше.

Нужна помощь с выбором ИИ-модели?

Команда Meanotek поможет вам выбрать оптимальную модель для ваших задач и интегрировать её в бизнес-процессы

Получить консультацию

AI-консалтинг

Внедрение

Каталог

Gemini 3.0: новая эра интеллекта или очередной шаг эволюции?