Вот что говорят о моделе ее создатели:
"Модель возглавляет таблицу лидеров LMArena с прорывным показателем 1501 (наше примечание: Elo — это рейтинговая система, похожая на шахматную, где языковые модели соревнуются друг с другом, и чем выше балл, тем лучше модель справляется с различными задачами по сравнению с конкурентами). Она демонстрирует рассуждения на уровне PhD с высшими баллами по тесту Humanity's Last Exam (37,5% без использования каких-либо инструментов) — это один из самых сложных экзаменов для ИИ, созданный для проверки способности решать научные проблемы на передовом уровне человеческого знания, и GPQA Diamond (91,9%) — тест с вопросами экспертного уровня по физике, биологии и химии, требующими глубоких знаний уровня кандидата наук. Модель также устанавливает новый стандарт для передовых моделей в математике, достигнув нового лучшего результата 23,4% на MathArena Apex — продвинутом математическом бенчмарке, где проверяется способность решать особо сложные математические задачи".
Но проблема как всегда в том, что стандартные тесты, принятые в сообществе ИИ, теряют свою актуальность. Ответы на них давно доступны в интернете и, скорее всего, входят в обучающую выборку новых моделей. К тому же в погоне за славой создатели моделей легко подгоняют результаты в известных тестовых задачах.
Чтобы понять реальность "новой эры" мы задали Gemini 3.0 несколько сложных для ИИ задач, с которыми топовые модели справляются с трудом. Вот что получилось.
Разминка: вопрос о смысле жизни
Традиционный для наших обзоров вопрос «для разогрева» — о смысле жизни. Сам по себе он не сложен, в том плане, что модели давно приучены выдавать на него стандартый текст, но всегда интересно, узнаем ли мы что-то новое и творческое или получим обычный список
Чтобы дать полный и глубокий ответ, необходимо разобрать этот вопрос через несколько ключевых подходов (шагов рассуждения).
1. Биологический подход: Выживание и эволюция
С точки зрения биологии и эволюционной теории, смысл жизни любого организма, включая человека, предельно прагматичен.
Репликация генов: Основная цель — передать свой генетический материал следующим поколениям.
Выживание вида: Жизнь стремится к самосохранению и адаптации к окружающей среде.
Вывод: В этом контексте смысл жизни заключается в размножении, воспитании потомства и обеспечении выживания человечества как биологического вида.
2. Религиозный и духовный подход: Высший замысел
На протяжении тысячелетий религия давала людям наиболее четкие ответы...»
Принципиально ответ не отличается от других моделей. Тот же список, возможно с той разницей, что биологический подход стоит на первом месте.
Но интересно, что модель в итоге делает вывод, а не ограничивается перечислением:
Итоговый синтез: В чем же смысл?
Если объединить все эти подходы, можно прийти к следующему заключению:
Объективного, универсального смысла жизни (написанного в небесах для всех сразу), скорее всего, не существует. Вселенная не выдает нам инструкцию при рождении.
Однако это не значит, что жизнь бессмысленна. Это означает, что смысл жизни — это не то, что нужно найти, а то, что нужно создать.
Смысл жизни — это субъективная конструкция, которая меняется на разных этапах жизни. Для современного человека смысл часто складывается из комбинации трех элементов:
- Познание: Изучение мира и себя.
- Созидание: Творчество, работа, создание чего-то нового.
- Связь: Любовь, дружба, семья и помощь другим.
Короткий ответ: Смысл жизни в том, чтобы придать ей смысл. Это активный процесс выбора того, что для вас важно, и жизнь в соответствии с этими ценностями.
Теперь посмотрим, как Gemini 3.0 справляется с практическими задачами, требующими реального мастерства.
Задача 1. Написание поста в блог на основании статьи на английском
Результат нас не порадовал, вот его фрагмент:
Самый интересный инсайт их работы заключается в том, что мультиагентные системы часто моделируются по образу и подобию человеческих организаций, а значит, и «болеют» они теми же организационными недугами.»
Читать текст тяжело. Попадаются странные фразы вроде «глубоко копнуть в эту тему». Много англицизмов. Сложные предложения вроде «мультиагентные системы часто моделируются по образу и подобию человеческих организаций, а значит, и «болеют» они теми же организационными недугами». Типичные узнаваемые ИИ-фразы — «не просто нашли слабые места в существующих фреймворках, но и предложили реальные архитектурные решения» (постоянное вставление противопоставлений там, где это не нужно). В общем, качество текста плохое и уступает в этой задаче конкурентам.
Задача 2. Создание параметрической 3D-модели на CadQuery
Контекст: Задача сложна для ИИ — нужно использовать редкую библиотеку и продемонстрировать пространственное мышление.
Мы возлагали на Gemini 3.0 большие надежды в задаче о стакане, но увы. Код выполняется без ошибок, но никакой объект не создается. Хотя на данный момент никакая модель не справляется с задачей полностью, Claude Sonnet 4 хотя бы создает стакан и какие-то отверстия. В данном случае результат полностью отсутствует.
Задача 3. Сведения о малоизвестных российских компаниях
Тут нас ждал сюрприз: модель подробно рассказала о направлении деятельности и особенностях компаний, входящих в наш тест. В этом она однозначно обошла GPT-5 и Claude Sonnet 4.5.
Однако в результате есть две ложки дегтя:
- Хотя модель верно рассказала общие сведения, она еще включила в них информацию об основателях и руководстве компаний. В большинстве случаев полученные имена оказались полностью выдуманными.
- О компаниях рассказано восторженно-маркетинговым языком. Для пользователя, который хотел бы узнать объективную информацию, это не лучший способ изложения.
Задача 4. Сведения о малоизвестных электронных компонентах
Мы спросили Gemini 3.0 о том, как подключать Feetech URT-1 (адаптер для управления сервомотором). В интернете на данное устройство мало документации.
В свое время GPT-5, когда мы его проверяли в день выхода, дал нам неправильные инструкции для подключения (и упорно защищал их). В отличие от GPT-5, Gemini 3.0 дает подробные и - самое главное - верные инструкции.
Задача 5. Клон старой DOS-игры Alley Cat на HTML+JavaScript
Контекст: Задача интересна тем, что для решения нужны не только навыки программирования, но и знания о том, как выглядела данная игра.
Результат... странный. Частично кажется, что модель пала жертвой своих обширных знаний — зная, что игры под DOS были примитивными и разрешение было маленьким, модель изготовила мелкое окошко. Графика, однако, намного хуже, чем в вариантах от GPT-5 и Claude Sonnet, и даже сильно хуже, чем в оригинальной Alley Cat. Но спишем это на неточно поставленный запрос.
По игровой механике: есть кошка, ей можно управлять, можно запрыгнуть на бочки. Из окна в кошку кидают разный мусор (чего не было в версиях других моделей), и это Gemini 3.0 сделала правильно — ощущается очень похоже на оригинал.
По этой ссылке https://meanotek.io/blog-entry/Claude-Sonnet-4.5-first-review-benchmark вы можете сравнить эту игру с тем, что написал Claude Sonnet 4.5Но есть и беда — допрыгнуть до окна невозможно, а значит, нет и мини-игр (или в них невозможно играть). В этом результат уступает Claude Sonnet 4.5.
Задача 6. Редактирование главы в фантастическом романе
К сожалению, без специальных ухищрений к 20-й главе топовые модели, включая GPT-5 и Sonnet 4.5, начали давать сбои — в тексте мы нашли 4 серьезные логические ошибки и противоречия с предыдущим сюжетом, а также ряд более мелких проблем с затянутостью событий и странным поведением персонажей.
Соответственно, мы поручили Gemini 3.0 переписать эпизод, поправив данные проблемы.
Мы сделали две попытки — одну из интерфейса gemini.google.com, вторую через вызов API с помощью OpenRouter. В первой попытке результат очень плох — полностью утерян смысл эпизода.
Во второй попытке результат... снова для нас странный. С одной стороны, указанные проблемы модель действительно поправила и нашла для этого оригинальные решения, устранив логические противоречия. С другой стороны, все хорошее, что было в эпизоде, в результате удалено — диалоги, переживания персонажей, конфликт пропал, остался голый скелет событий.
Для сравнения: Claude 4.5 намного лучше работает с текстом. Хотя ее решения не такие изящные концептуально, персонажи оказываются в целом более живыми и интересными.
Возможно, со стороны Gemini это проявление «лени» — модель делает ровно то, что ей сказали, и ничего больше. Самый лучший результат в этой задаче получился при совмещении двух моделей — если взять идеи, предложенные Gemini 3.0, но для написания текста по ним использовать Sonnet 4.5.
Выводы
Пока что в Gemini 3.0 мы не обнаружили ничего, что заставило бы сказать «вау, это круто, действительно новая эра». Чувствуется, что модель имеет более обширные знания, и намеками чувствуется улучшение способностей к творческому применению этих знаний.
При этом есть много задач, где тот же Sonnet 4.5 или GPT-5.1 сделают дело лучше. В сложных задачах в определенных аспектах Gemini 3.0 серьезно превосходит конкурентов, но при этом в других аспектах проигрывает, и в итоге в целом задача не выглядит сделанной лучше.
С другой стороны, пока модель вышла с приставкой preview — возможно, в итоговой версии станет лучше.
Нужна помощь с выбором ИИ-модели?
Команда Meanotek поможет вам выбрать оптимальную модель для ваших задач и интегрировать её в бизнес-процессы
Получить консультацию