Alibaba представила Qwen3-Max-Preview - свою самую крупную языковую модель на сегодняшний день, содержащую более одного триллиона параметров. Модель доступна через Qwen Chat и API Alibaba Cloud. По данным Alibaba, Qwen3-Max-Preview превосходит предыдущую флагманскую модель, Qwen3-235B-A22B-2507, как по внутренним тестам, так и по отзывам первых пользователей. Согласно представленным оценкам, она также превосходит DeepSeek, Kimi K2 и Claude Opus 4 (non-thinking) [источник: SCMP].
Однако важно помнить: официальные бенчмарки сегодня нередко непоказательны. Многие тестовые задания давно попали в обучающие данные, а результаты легко «подгоняются» под известные метрики. Поэтому мы сравниваем Qwen 3 Max Preview и GPT-5 на собственном наборе уникальных и сложных для нейросетей задач.
Задача 1. Преобразование UNIX-времени
- Задание: преобразовать UNIX timestamp 2700802150 в читаемую дату.
Unix timestamp - это система измерения времени, в которой время представляется как количество секунд, прошедших с 00:00:00 UTC 1 января 1970 года. Для нейросети преобразовать произвольный timestamp в будущем не легко нужно учесть високосные года, длину месяца и календарные правила. Подобные тесты редко встречаются в датасетах в неизменном виде, поэтому запомнить правильный результат нейросеть не может. Практика показывает, что большие и хорошо обученные нейросети приобретают блоки, отвечающие конкретно за эту задачу. Среди нерассуждающих моделей, большинство топовых нейросетей могут правильно определить год и месяц, ошибаясь на несколько дней с числом (примеры разных ответов есть в предыдущих наших постах).
Результаты:Задача 2. Вопрос на неправильной раскладке клавиатуры
- Запрос: «Ult ;bdtn ,tutvjn?»
- Контекст: строка набрана в английской раскладке, но задумана как русская. Достаточно типичная ситуация, но чтобы правильно обработать ее модель должна определить, что среди всех возможных «кодов» она имеет дело именно с неправильной раскладкой русской клавиатуры. Модель должна:
- распознать проблему с раскладкой;
- корректно «перекодировать» фразу;
- ответить по существу.
GPT-5 хорошо справляется с этой задачей. Хотя сравнение не вполне справедливо, т.к. GPT-5 может использовать режим рассуждений а Qwen 3 Max пока что нет. Среди нерассуждающих моделей результат Qwen 3 Max неплох, так как только GPT-4.5 в свое время умела определять суть проблемы верно.
Задача 3. CadQuery: стакан с узором Вороного и биометрическими отверстиями
- Задание: «Создать дизайн цилиндрического стакана в CadQuery с биометрическими отверстиями и узором Вороного». CadQuery - нишевая библиотека для параметрического 3D-моделирования (Python). Поэтому задача требуется сочетание редких знаний API и пространственного мышления.
Задача 4. Пересказ научной статьи для блога (контент на русском)
- Задание: написать пост на основе англоязычной новостной статьи о новой работе по ИИ-агентам для широкой аудитории. Критерии: корректная передача сути, понятность, стиль под блог; избегать шаблонов и англицизмов без необходимости.
Вот фрагмент результата:
Сегодня хочу рассказать вам о свежем исследовании, которое реально заставляет задуматься - насколько мы продвинулись в построении многоагентных систем, и где ещё спотыкаемся. Работа от Мерта Чемри и команды из UC Berkeley и итальянского банка Intesa Sanpaolo - это не просто очередной апдейт, а настоящий шаг вперёд в понимании того, как сделать агентов умнее… вместе.
Оказывается, когда мы строим системы из нескольких ИИ-агентов, мы часто копируем структуры человеческих организаций. И, как ни странно, они ломаются по тем же причинам - кто-то не уточняет задачу, если не уверен, кто-то молчит, когда должен спросить, а кто-то просто закрывает задачу, не проверив результат. Знакомо? Именно. Исследователи предложили простые, но мощные фиксы: например, заставлять агента просить уточнение, если его уверенность ниже порога, стандартизировать, как агенты общаются между собой, и чётче прописывать, кто за что отвечает."
Минусы: англицизмы (фиксы, апдейт), паразитные выражения (это не просто очередной апдейт, а настоящий шаг вперёд), неудачные формулировки (с GPT-4o внутри). В целом, конечно его полегче читать, чем тексты предыдущих версий Qwen 3 (см ниже), и будет проще довести "до ума". И конечно, для человеческого глаза этот текст приятнее, чем текст от GPT-5 (который в целом имеет проблемы с написанием осмысленных текстов).
Примеры результатов предыдущих моделей Qwen 3
Qwen3-30B-A3BКлючевая идея: если мы сравниваем агентов с людьми в компании, то понимаем, что они могут вести себя так же. Например, человек может не спросить уточнения, если что-то не понял. Агенты тоже могут так делать. Чтобы этого избежать, можно заставить их задавать вопросы, если уверенность падает ниже определённого порога. Ещё помогает проверка, чтобы убедиться, что задача выполнена, и стандартизация общения между агентами».
Недавно исследователи из UC Berkeley и банка Intesa Sanpaolo под руководством Мерта Джемри решили разобраться, почему мультиагентные системы так часто подводят, и как это можно исправить. Их подход оказался одновременно простым и гениальным: они стали смотреть на агентов как на сотрудников компании.»
Задача 5. Знания о небольших российских компаниях
Проверяем способность вспоминать редкие факты о малоизвестных объектах, то есть ширину и «дальние хвосты» данных.
Результаты:- Qwen 3 Max Preview: не справляется, сообщает об отсутствии информации и предлагает обсудить более известные компании (Яндекс, Mail.ru).
Из всех протестированных моделей с этой задачей пока справляется более-менее только Claude Opus 4
Задача 6. Программирование игры: упрощённый клон Alley Cat
- Задание: «Напиши упрощённый клон Alley Cat на HTML и JavaScript».
- Пояснение: Alley Cat - аркада 1980-х, где кот прыгает по мусорным бакам, забору и окнам; В этой задаче модель должна правильно вспомнить, в чем состояла старая компьютерная игра Alley Cat и написать ее упрощенную копию. Задача проверяет как общие знания, так и способности к написанию кода.
🎮 Интерактивное сравнение результатов
Ниже представлены реальные игры, созданные каждой моделью. Попробуйте поиграть и оцените качество реализации сами!
Qwen 3 Max Preview Версия
Простая, но функциональная реализация с основными игровыми механиками. Кот может прыгать по платформам, избегать мышей и собирать рыбок. Работает только с десктопного компьютера. Нажмите на область демонстрации для начала игры. Управление стрелками на клавиатуре, пробел - прыжок
GPT-5 Версия
Визуально сложная реализация с атмосферной графикой, продвинутыми эффектами и детализированной игровой средой.
🏆 Вердикт по игровым демо
Qwen 3 Max Preview: создала абстрактную игру про кошку с очень упрощённой графикой, но в целом играбельную.
GPT-5: сделала визуально более близкую к Alley Cat версию с более качественной графикой; однако из-за отсутствия «забора» (ключевого элемента уровня) игру пройти нельзя - кот не может допрыгнуть с бочки прямо в окно. Работает только с десктопного компьютера. Нажмите на кнопку start для начала игры. Управление стрелками на клавиатуре, пробел - прыжок