ИИ-Модели 15 января 2025 12 мин чтения

Qwen 3 Max Preview против GPT‑5: сравнение на сложных задачах

Независимый анализ новых моделей на уникальных практических задачах

Alibaba представила Qwen3-Max-Preview - свою самую крупную языковую модель на сегодняшний день, содержащую более одного триллиона параметров. Модель доступна через Qwen Chat и API Alibaba Cloud. По данным Alibaba, Qwen3-Max-Preview превосходит предыдущую флагманскую модель, Qwen3-235B-A22B-2507, как по внутренним тестам, так и по отзывам первых пользователей. Согласно представленным оценкам, она также превосходит DeepSeek, Kimi K2 и Claude Opus 4 (non-thinking) [источник: SCMP].

Однако важно помнить: официальные бенчмарки сегодня нередко непоказательны. Многие тестовые задания давно попали в обучающие данные, а результаты легко «подгоняются» под известные метрики. Поэтому мы сравниваем Qwen 3 Max Preview и GPT-5 на собственном наборе уникальных и сложных для нейросетей задач.

Задача 1. Преобразование UNIX-времени

  • Задание: преобразовать UNIX timestamp 2700802150 в читаемую дату.

Unix timestamp - это система измерения времени, в которой время представляется как количество секунд, прошедших с 00:00:00 UTC 1 января 1970 года. Для нейросети преобразовать произвольный timestamp в будущем не легко нужно учесть високосные года, длину месяца и календарные правила. Подобные тесты редко встречаются в датасетах в неизменном виде, поэтому запомнить правильный результат нейросеть не может. Практика показывает, что большие и хорошо обученные нейросети приобретают блоки, отвечающие конкретно за эту задачу. Среди нерассуждающих моделей, большинство топовых нейросетей могут правильно определить год и месяц, ошибаясь на несколько дней с числом (примеры разных ответов есть в предыдущих наших постах).

Результаты:
GPT-5: 2 августа 2055 года, 06:49:10 UTC (ISO 8601: 2055-08-02T06:49:10Z). Ответ точный до секунды. ✅
Qwen 3 Max Preview: Tuesday, February 15, 2056 at 05:49:10 UTC - ошибся даже с годом (наихудший результат среди передовых моделей в этом тесте).

Задача 2. Вопрос на неправильной раскладке клавиатуры

  • Запрос: «Ult ;bdtn ,tutvjn?»
  • Контекст: строка набрана в английской раскладке, но задумана как русская. Достаточно типичная ситуация, но чтобы правильно обработать ее модель должна определить, что среди всех возможных «кодов» она имеет дело именно с неправильной раскладкой русской клавиатуры. Модель должна:
    1. распознать проблему с раскладкой;
    2. корректно «перекодировать» фразу;
    3. ответить по существу.
Результаты:
Qwen 3 Max Preview: правильно определила, что это проблема раскладки, но неверно «перевела» строку, выдав «что будет дальше».
GPT-5: корректно распознаёт и справляется с задачей.

GPT-5 хорошо справляется с этой задачей. Хотя сравнение не вполне справедливо, т.к. GPT-5 может использовать режим рассуждений а Qwen 3 Max пока что нет. Среди нерассуждающих моделей результат Qwen 3 Max неплох, так как только GPT-4.5 в свое время умела определять суть проблемы верно.

Задача 3. CadQuery: стакан с узором Вороного и биометрическими отверстиями

  • Задание: «Создать дизайн цилиндрического стакана в CadQuery с биометрическими отверстиями и узором Вороного». CadQuery - нишевая библиотека для параметрического 3D-моделирования (Python). Поэтому задача требуется сочетание редких знаний API и пространственного мышления.
Результаты:
Qwen 3 Max Preview: код с множественными ошибками, не запускается.
GPT-5: также не запускается без правок.
Примечание: из моделей, которые мы тестировали ранее, хоть какой-то стакан с каким-то узором без критических ошибок удавалось нарисовать только Claude Sonnet 4 (картинка есть в старом посте).

Задача 4. Пересказ научной статьи для блога (контент на русском)

  • Задание: написать пост на основе англоязычной новостной статьи о новой работе по ИИ-агентам для широкой аудитории. Критерии: корректная передача сути, понятность, стиль под блог; избегать шаблонов и англицизмов без необходимости.

Вот фрагмент результата:

"Привет, друзья! 👋

Сегодня хочу рассказать вам о свежем исследовании, которое реально заставляет задуматься - насколько мы продвинулись в построении многоагентных систем, и где ещё спотыкаемся. Работа от Мерта Чемри и команды из UC Berkeley и итальянского банка Intesa Sanpaolo - это не просто очередной апдейт, а настоящий шаг вперёд в понимании того, как сделать агентов умнее… вместе.

Оказывается, когда мы строим системы из нескольких ИИ-агентов, мы часто копируем структуры человеческих организаций. И, как ни странно, они ломаются по тем же причинам - кто-то не уточняет задачу, если не уверен, кто-то молчит, когда должен спросить, а кто-то просто закрывает задачу, не проверив результат. Знакомо? Именно. Исследователи предложили простые, но мощные фиксы: например, заставлять агента просить уточнение, если его уверенность ниже порога, стандартизировать, как агенты общаются между собой, и чётче прописывать, кто за что отвечает."

Минусы: англицизмы (фиксы, апдейт), паразитные выражения (это не просто очередной апдейт, а настоящий шаг вперёд), неудачные формулировки (с GPT-4o внутри). В целом, конечно его полегче читать, чем тексты предыдущих версий Qwen 3 (см ниже), и будет проще довести "до ума". И конечно, для человеческого глаза этот текст приятнее, чем текст от GPT-5 (который в целом имеет проблемы с написанием осмысленных текстов).

Примеры результатов предыдущих моделей Qwen 3
Qwen3-30B-A3B
«Вот что нового: исследователи из Беркли и итальянского банка Intesa Sanpaolo решили посмотреть, почему многоагентные системы часто ломаются. Они не просто посмотрели на проблемы, а придумали способы их исправить. В итоге получилось что-то, что даже Google заинтересовалось.

Ключевая идея: если мы сравниваем агентов с людьми в компании, то понимаем, что они могут вести себя так же. Например, человек может не спросить уточнения, если что-то не понял. Агенты тоже могут так делать. Чтобы этого избежать, можно заставить их задавать вопросы, если уверенность падает ниже определённого порога. Ещё помогает проверка, чтобы убедиться, что задача выполнена, и стандартизация общения между агентами».
Qwen3-235B-A22B-2507
«Когда мы думаем о мультиагентных системах - то есть о таких, где несколько ИИ-агентов работают вместе, чтобы решить задачу - легко представить себе что-то вроде умной команды: один пишет код, другой проверяет, третий объясняет, что вообще происходит. Но на практике эти "команды" часто ведут себя так же странно, как и реальные люди в плохо организованной компании. Они путаются в ролях, не уточняют непонятное, забывают, что уже сделали, и просто сдают результат, надеясь, что всё ок.

Недавно исследователи из UC Berkeley и банка Intesa Sanpaolo под руководством Мерта Джемри решили разобраться, почему мультиагентные системы так часто подводят, и как это можно исправить. Их подход оказался одновременно простым и гениальным: они стали смотреть на агентов как на сотрудников компании.»

Задача 5. Знания о небольших российских компаниях

Проверяем способность вспоминать редкие факты о малоизвестных объектах, то есть ширину и «дальние хвосты» данных.

Результаты:
  • Qwen 3 Max Preview: не справляется, сообщает об отсутствии информации и предлагает обсудить более известные компании (Яндекс, Mail.ru).

Из всех протестированных моделей с этой задачей пока справляется более-менее только Claude Opus 4

Задача 6. Программирование игры: упрощённый клон Alley Cat

  • Задание: «Напиши упрощённый клон Alley Cat на HTML и JavaScript».
  • Пояснение: Alley Cat - аркада 1980-х, где кот прыгает по мусорным бакам, забору и окнам; В этой задаче модель должна правильно вспомнить, в чем состояла старая компьютерная игра Alley Cat и написать ее упрощенную копию. Задача проверяет как общие знания, так и способности к написанию кода.

🎮 Интерактивное сравнение результатов

Ниже представлены реальные игры, созданные каждой моделью. Попробуйте поиграть и оцените качество реализации сами!

Qwen 3 Max Preview Версия

Простая, но функциональная реализация с основными игровыми механиками. Кот может прыгать по платформам, избегать мышей и собирать рыбок. Работает только с десктопного компьютера. Нажмите на область демонстрации для начала игры. Управление стрелками на клавиатуре, пробел - прыжок

GPT-5 Версия

Визуально сложная реализация с атмосферной графикой, продвинутыми эффектами и детализированной игровой средой.

🏆 Вердикт по игровым демо

Qwen 3 Max Preview: создала абстрактную игру про кошку с очень упрощённой графикой, но в целом играбельную.

GPT-5: сделала визуально более близкую к Alley Cat версию с более качественной графикой; однако из-за отсутствия «забора» (ключевого элемента уровня) игру пройти нельзя - кот не может допрыгнуть с бочки прямо в окно. Работает только с десктопного компьютера. Нажмите на кнопку start для начала игры. Управление стрелками на клавиатуре, пробел - прыжок