ИИ-Модели 15 января 2025 8 мин чтения

Три новые модели Qwen3: специализация, контекст и агентные способности

Разбираем новый релиз Alibaba и чем он может быть нам полезен

Alibaba опубликовала веса трёх новых моделей на базе Qwen3-235B-A22B. Теперь доступны:

  • Qwen3-Instruct-2507 — для прямых задач без глубокого анализа
  • Qwen3-Thinking-2507 — для логических рассуждений
  • Qwen3-Coder — специализирована на программировании и использовании инструментов

Раньше у Qwen был режим «мышления» в одной модели. Теперь Alibaba предлагает использовать разные модели под разные задачи, что конечно же усложняет их использование при локальном развертывании, т. к. если раньше можно было загрузить в память одну модель и легко менять режим в зависимости от потребностей, то теперь для этого необходимо либо иметь в два раза больше памяти, либо выгружать одну модель и загружать другую.

Ключевое изменение подхода

В этом плане решение разделить модели, конечно вызывает вопросы. Обусловлено они видимо тем, что совмещение двух режимов в одной модели приводит к некоторому ухудшению ее результатов по сравнению с двумя отдельными моделями, как часто бывает.

Ну и понятно, что в условиях жесткой конкуренции, красивые показатели тестов очень важны и гораздо выгоднее иметь первые строчки среди нерассуждающих моделей, чем показывать средние результаты среди моделей с поддержкой рассуждений.

⚙️ Технические подробности

Все модели — MoE (Mixture-of-Experts).

🔧 Instruct и Thinking модели

Общее число параметров 235 млрд
Активно при инференсе 22 млрд
Максимальный вход до 262K токенов
Максимальный выход до 32K токенов

💻 Qwen3-Coder

Общее число параметров 480 млрд
Активно при инференсе 35 млрд
Максимальный вход до 1 миллиона токенов
Максимальный выход до 32K токенов

Максимальный контекст увеличился вдвое по сравнению с предыдущими версиями. Для Qwen3-Coder это особенно важно: теперь можно загружать целые репозитории или длинные документы.

📊 Результаты тестов

77.5%
Instruct-2507 на GPQA
81.1%
Thinking-2507 на GPQA
67%
Qwen3-Coder на SWE-bench
13/13
Лидерство по агентным бенчмаркам
  • Instruct-2507 — лучшая non-reasoning модель на 14 из 25 бенчмарков. Например, 77.5% на GPQA, выше, чем у GPT-4o и Kimi K2.
  • Thinking-250781.1% на GPQA. Уступает Gemini 2.5 Pro (86.4%) и OpenAI o3 (83.3%), но в целом, достойный результат
  • Qwen3-Coder — лидирует по всем 13 агентным бенчмаркам. 67% успеха на SWE-bench (Claude Sonnet — 68%). Обучена на 7,5 триллионах токенов, из них 70% — код. Умеет использовать инструменты в несколько шагов

🛠️ Что нового в подходе

  • Отказ от гибридных моделей с режимом мышления — теперь модель с рассуждениями и без — это разные модели
  • GSPO (Group Sequence Policy Optimization) — модифицированная версия GRPO, использованная при RL. Детали не раскрыты
  • Обучение агентному поведению — Qwen3-Coder изначально обучался планировать, исправлять ошибки и взаимодействовать с окружением

💰 Доступность

Модели доступны бесплатно для любого использования — включая коммерческие проекты — под лицензией Apache 2.0. Скачать можно на Hugging Face и ModelScope.

💳 Цены на API

Instruct $0.70 / $2.80 за 1 млн токенов
Thinking $0.70 / $8.40 за 1 млн токенов
Coder от $1 до $60 за 1 млн токенов

Готовы внедрить ИИ в свой бизнес?

Мы поможем выбрать подходящую модель и интегрировать её в ваши процессы

Получить консультацию

🌍 Анализ: открытые модели и агентный ИИ

Qwen3-Coder — один из самых сильных примеров, когда открытая модель по уровню выполнения задач приближается к проприетарным.

Alibaba делает ставку на открытые веса и агентные системы — особенно в кодировании и использовании инструментов. При этом фокус смещен на модели без рассуждений, хотя возможно рассуждающие версии будут в следующих релизах.