Три новые модели Qwen3: специализация, контекст и агентные способности

Alibaba опубликовала веса трёх новых моделей на базе Qwen3-235B-A22B. Теперь доступны:

Qwen3-Instruct-2507 — для прямых задач без глубокого анализа
Qwen3-Thinking-2507 — для логических рассуждений
Qwen3-Coder — специализирована на программировании и использовании инструментов

Раньше у Qwen был режим «мышления» в одной модели. Теперь Alibaba предлагает использовать разные модели под разные задачи, что конечно же усложняет их использование при локальном развертывании, т. к. если раньше можно было загрузить в память одну модель и легко менять режим в зависимости от потребностей, то теперь для этого необходимо либо иметь в два раза больше памяти, либо выгружать одну модель и загружать другую.

Ключевое изменение подхода

В этом плане решение разделить модели, конечно вызывает вопросы. Обусловлено они видимо тем, что совмещение двух режимов в одной модели приводит к некоторому ухудшению ее результатов по сравнению с двумя отдельными моделями, как часто бывает.

Ну и понятно, что в условиях жесткой конкуренции, красивые показатели тестов очень важны и гораздо выгоднее иметь первые строчки среди нерассуждающих моделей, чем показывать средние результаты среди моделей с поддержкой рассуждений.

⚙️ Технические подробности

Все модели — MoE (Mixture-of-Experts).

🔧 Instruct и Thinking модели

Общее число параметров 235 млрд

Активно при инференсе 22 млрд

Максимальный вход до 262K токенов

Максимальный выход до 32K токенов

💻 Qwen3-Coder

Общее число параметров 480 млрд

Активно при инференсе 35 млрд

Максимальный вход до 1 миллиона токенов

Максимальный выход до 32K токенов

Максимальный контекст увеличился вдвое по сравнению с предыдущими версиями. Для Qwen3-Coder это особенно важно: теперь можно загружать целые репозитории или длинные документы.

📊 Результаты тестов

77.5%

Instruct-2507 на GPQA

81.1%

Thinking-2507 на GPQA

67%

Qwen3-Coder на SWE-bench

13/13

Лидерство по агентным бенчмаркам

Instruct-2507 — лучшая non-reasoning модель на 14 из 25 бенчмарков. Например, 77.5% на GPQA, выше, чем у GPT-4o и Kimi K2.
Thinking-2507 — 81.1% на GPQA. Уступает Gemini 2.5 Pro (86.4%) и OpenAI o3 (83.3%), но в целом, достойный результат
Qwen3-Coder — лидирует по всем 13 агентным бенчмаркам. 67% успеха на SWE-bench (Claude Sonnet — 68%). Обучена на 7,5 триллионах токенов, из них 70% — код. Умеет использовать инструменты в несколько шагов

🛠️ Что нового в подходе

Отказ от гибридных моделей с режимом мышления — теперь модель с рассуждениями и без — это разные модели
GSPO (Group Sequence Policy Optimization) — модифицированная версия GRPO, использованная при RL. Детали не раскрыты
Обучение агентному поведению — Qwen3-Coder изначально обучался планировать, исправлять ошибки и взаимодействовать с окружением

💰 Доступность

Модели доступны бесплатно для любого использования — включая коммерческие проекты — под лицензией Apache 2.0. Скачать можно на Hugging Face и ModelScope.

💳 Цены на API

Instruct $0.70 / $2.80 за 1 млн токенов

Thinking $0.70 / $8.40 за 1 млн токенов

Coder от $1 до $60 за 1 млн токенов

Готовы внедрить ИИ в свой бизнес?

Мы поможем выбрать подходящую модель и интегрировать её в ваши процессы

Получить консультацию

🌍 Анализ: открытые модели и агентный ИИ

Qwen3-Coder — один из самых сильных примеров, когда открытая модель по уровню выполнения задач приближается к проприетарным.

Alibaba делает ставку на открытые веса и агентные системы — особенно в кодировании и использовании инструментов. При этом фокус смещен на модели без рассуждений, хотя возможно рассуждающие версии будут в следующих релизах.

AI-консалтинг

Внедрение

Каталог

Три новые модели Qwen3: специализация, контекст и агентные способности

Ключевое изменение подхода

⚙️ Технические подробности

🔧 Instruct и Thinking модели

💻 Qwen3-Coder

📊 Результаты тестов

🛠️ Что нового в подходе

💰 Доступность

💳 Цены на API

Готовы внедрить ИИ в свой бизнес?

🌍 Анализ: открытые модели и агентный ИИ

Похожие статьи

Новая версия Claude Haiku 4.5 - обзор и тестирование модели

Gemini 3.0 уже здесь? Что известно о новой модели Google до официального релиза

Vercel внедрил ИИ-систему для автоматизации отдела продаж

Тестируем Claude Sonnet 4.5 — насколько хороша новая модель?

За кулисами разума: Почему у ИИ появился «внутренний голос», похожий на наш

OpenAI представила новую функцию интеграции сторонних приложений в ChatGPT

Быстрые ссылки

Где нас можно найти

Связаться

Оставить заявку

Три новые модели Qwen3: специализация, контекст и агентные способности

Ключевое изменение подхода

⚙️ Технические подробности

🔧 Instruct и Thinking модели

💻 Qwen3-Coder

📊 Результаты тестов

🛠️ Что нового в подходе

💰 Доступность

💳 Цены на API

Готовы внедрить ИИ в свой бизнес?

🌍 Анализ: открытые модели и агентный ИИ

Похожие статьи

Новая версия Claude Haiku 4.5 - обзор и тестирование модели

Gemini 3.0 уже здесь? Что известно о новой модели Google до официального релиза

Vercel внедрил ИИ-систему для автоматизации отдела продаж

Тестируем Claude Sonnet 4.5 — насколько хороша новая модель?

За кулисами разума: Почему у ИИ появился «внутренний голос», похожий на наш

OpenAI представила новую функцию интеграции сторонних приложений в ChatGPT

Быстрые ссылки

Где нас можно найти

Мы в соцсетях

Связаться