Alibaba опубликовала веса трёх новых моделей на базе Qwen3-235B-A22B. Теперь доступны:
- Qwen3-Instruct-2507 — для прямых задач без глубокого анализа
- Qwen3-Thinking-2507 — для логических рассуждений
- Qwen3-Coder — специализирована на программировании и использовании инструментов
Раньше у Qwen был режим «мышления» в одной модели. Теперь Alibaba предлагает использовать разные модели под разные задачи, что конечно же усложняет их использование при локальном развертывании, т. к. если раньше можно было загрузить в память одну модель и легко менять режим в зависимости от потребностей, то теперь для этого необходимо либо иметь в два раза больше памяти, либо выгружать одну модель и загружать другую.
Ключевое изменение подхода
В этом плане решение разделить модели, конечно вызывает вопросы. Обусловлено они видимо тем, что совмещение двух режимов в одной модели приводит к некоторому ухудшению ее результатов по сравнению с двумя отдельными моделями, как часто бывает.
Ну и понятно, что в условиях жесткой конкуренции, красивые показатели тестов очень важны и гораздо выгоднее иметь первые строчки среди нерассуждающих моделей, чем показывать средние результаты среди моделей с поддержкой рассуждений.
⚙️ Технические подробности
Все модели — MoE (Mixture-of-Experts).
🔧 Instruct и Thinking модели
💻 Qwen3-Coder
Максимальный контекст увеличился вдвое по сравнению с предыдущими версиями. Для Qwen3-Coder это особенно важно: теперь можно загружать целые репозитории или длинные документы.
📊 Результаты тестов
- Instruct-2507 — лучшая non-reasoning модель на 14 из 25 бенчмарков. Например, 77.5% на GPQA, выше, чем у GPT-4o и Kimi K2.
- Thinking-2507 — 81.1% на GPQA. Уступает Gemini 2.5 Pro (86.4%) и OpenAI o3 (83.3%), но в целом, достойный результат
- Qwen3-Coder — лидирует по всем 13 агентным бенчмаркам. 67% успеха на SWE-bench (Claude Sonnet — 68%). Обучена на 7,5 триллионах токенов, из них 70% — код. Умеет использовать инструменты в несколько шагов
🛠️ Что нового в подходе
- Отказ от гибридных моделей с режимом мышления — теперь модель с рассуждениями и без — это разные модели
- GSPO (Group Sequence Policy Optimization) — модифицированная версия GRPO, использованная при RL. Детали не раскрыты
- Обучение агентному поведению — Qwen3-Coder изначально обучался планировать, исправлять ошибки и взаимодействовать с окружением
💰 Доступность
Модели доступны бесплатно для любого использования — включая коммерческие проекты — под лицензией Apache 2.0. Скачать можно на Hugging Face и ModelScope.
💳 Цены на API
Готовы внедрить ИИ в свой бизнес?
Мы поможем выбрать подходящую модель и интегрировать её в ваши процессы
Получить консультацию🌍 Анализ: открытые модели и агентный ИИ
Qwen3-Coder — один из самых сильных примеров, когда открытая модель по уровню выполнения задач приближается к проприетарным.
Alibaba делает ставку на открытые веса и агентные системы — особенно в кодировании и использовании инструментов. При этом фокус смещен на модели без рассуждений, хотя возможно рассуждающие версии будут в следующих релизах.