Анонс GPT-5.6 Sol, Terra и Luna: сравнения

Анонс GPT-5.6 Sol, Terra и Luna: сравнения и бенчмарки

Давно обещали, а всё равно неожиданно: 26 июня 2026 года OpenAI объявила о начале ограниченного превью серии GPT-5.6. Речь именно о серии — трех новых моделях под одним лейблом, с разным соотношением мощности и стоимости. Это первый релиз в рамках обновленной системы именования, где цифра обозначает поколение, а «имя» модели — ее функциональный уровень.

Главный баннер-презентация линейки GPT-5.6 Sol, Terra, Luna с ценами за 1 миллион токенов, новыми режимами работы и скоростью API.

Рассказываем, какие новшества предлагает система «трех тел», и что это означает для пользователей и разработчиков.

Три модели вместо одной в GPT-5.6

GPT-5.6 — это не одна модель, а семейство из трех:

Sol — флагман серии. Максимальная мощность, приоритет — сложные задачи: программирование, наука, кибербезопасность.
Terra — сбалансированная модель для повседневной работы. По производительности сопоставима с GPT-5.5, но стоит вдвое дешевле.
Luna — быстрая и экономичная. Самая доступная в линейке, при этом сохраняет значимый прирост возможностей по сравнению с предыдущими моделями.

Система именования Sol / Terra / Luna отражает «уровни мощности», которые OpenAI планирует поддерживать независимо от версий. То есть в будущем выйдет, например, GPT-5.7 Sol — и понять, что это очередной флагман, можно будет сразу, без лишних таблиц сравнения.

Инфографика линейки моделей GPT-5.6 Sol, Terra и Luna со сравнением их ключевых преимуществ, производительности и назначения.

Новые режимы: max и ultra

Вместе с GPT-5.6 OpenAI вводит два новых параметра работы:

max reasoning effort — режим глубокого рассуждения. Модель получает максимальное время на обдумывание задачи перед ответом.
ultra mode — выходит за рамки одного агента: задача распределяется между субагентами, что ускоряет выполнение сложных многоэтапных процессов.

Оба режима ориентированы на профессиональные сценарии, где скорость менее критична, чем точность или глубина анализа.

Бенчмарки: что говорят цифры

OpenAI раскрыла результаты на нескольких специализированных бенчмарках. Полная версия данных будет опубликована при общем релизе.

Terminal-Bench 2.1 — программирование в командной строке

График результатов тестирования моделей ИИ в бенчмарке TerminalBench 2.1, где лидируют Sol Ultra и Sol.

Источник: OpenAI

GPT-5.6 Sol устанавливает новый state of the art на этом бенчмарке. Terminal-Bench 2.1 проверяет агентные возможности в реальных CLI-сценариях: планирование, итерации, координация инструментов. Это не решение изолированных алгоритмических задач — это полноценная работа в терминале.

GeneBench v1 — больше мощность, меньше токенов у GPT-5.6

Линейный график зависимости качества ответов (Score) от количества сгенерированных токенов (Output tokens) для моделей Sol, Terra, Luna и GPT-5.5.

Источник: OpenAI

На задачах долгосрочного геномного анализа и количественной биологии Sol превосходит GPT-5.5 при меньшем количестве выходных токенов. Это важно: экономия токенов при росте качества напрямую влияет на стоимость API-запросов в продакшене.

ExploitBench² и ExploitGym — лучше, чем Mythos 5?

График бенчмарка ExploitBench, показывающий зависимость процента выполнения задач от количества токенов для GPT-5.6, GPT-5.5, GPT-5.4 и линеек Mythos и Opus.

Источник: OpenAI

Здесь картина наиболее интересная. GPT-5.6 Sol конкурирует с Mythos Preview (внутренняя флагманская модель OpenAI, на данный момент недоступная широкой аудитории) — при этом использует примерно треть выходных токенов. Проще говоря, та же картина, что в прочих бенчмарках: сопоставимые результаты при значительно меньших затратах.

На открытом бенчмарке ExploitGym (создан исследователями UC Berkeley совместно с OpenAI и другими лабораториями) все три модели — Sol, Terra и Luna — демонстрируют уверенный рост с увеличением глубины рассуждений.

Сравнительная таблица моделей GPT-5.6

А вот как распределились результаты между моделями внутри самой линейки:

Параметр	Sol	Terra	Luna
Позиционирование	Флагман	Баланс	Скорость / цена
Цена входящих токенов (за 1M)	$5	$2,50	$1
Цена исходящих токенов (за 1M)	$30	$15	$6
Ориентир по производительности	Новый SOTA	≈ GPT-5.5	Сильный базовый уровень
Terminal-Bench 2.1	✅ SOTA	—	—
ExploitBench²	≈ Mythos Preview	✅	✅
Режим max reasoning	✅	✅	✅
Режим ultra	✅	—	—

Ценообразование и кэширование GPT-5.6

Как видим в таблице, цена GPT-5.6 указана за 1 млн токенов для каждой из трех моделей:

Sol — $5 за вход / $30 за выход;
Terra — $2,50 за вход / $15 за выход;
Luna — $1 за вход / $6 за выход.

Как видим, прайсинг GPT-5.6 по сравнению с GPT-5.5 остается конкурентным. А Terra вообще делает флагманский уровень прошлого поколения вдвое дешевле.

Другая сторона стоимости инференса — работа с кэшем. Вместе с серией GPT-5.6 OpenAI вводит обновленную систему кэширования:

поддержка явных точек разрыва кэша (cache breakpoints);
минимальное время жизни кэша — 30 минут;
запись в кэш тарифицируется по ставке 1,25x от обычной входящей цены;
чтение из кэша — скидка 90% от входящей цены (без изменений).

Это делает работу с длинными контекстами более предсказуемой и потенциально более дешевой при повторных запросах к одному промпту.

Скорость API: перспективы GPT-5.6 Sol на Cerebras

OpenAI анонсировала запуск Sol на инфраструктуре Cerebras в июле 2026 года — до 750 токенов в секунду. Существующие API-скорости у конкурентов значительно ниже.

Это интересно. Cerebras специализируется на чиповой архитектуре, оптимизированной для больших языковых моделей. Если скорость в продакшене действительно достигнет заявленных цифр — это меняет сценарии использования для real-time приложений.

Сводная таблица сравнения флагманских LLM на бенчмарках SWE-bench, GPQA, MATH-500, Humanity's Last Exam с лидером GPT-5.6 Sol.

Безопасность: самый серьезный стек на сегодня

Релиз GPT-5.6 сопровождается тем, что OpenAI называет «наиболее надежным стеком безопасности» в своей истории. Это не PR-формулировка. Компания раскрыла конкретные детали.

Многоуровневая защита включает:

Обучение модели — отказ от запрещенных запросов, устойчивость к маскировке намерений и джейлбрейкам.
Классификаторы реального времени — оценка генерации по мере появления токенов. В высокорисковых случаях генерация может быть приостановлена для проверки более мощной reasoning-моделью.
Анализ на уровне аккаунта — отслеживание паттернов поведения между сессиями, разграничение легитимной dual-use работы и вредоносной активности.
Дифференцированный доступ — наиболее чувствительные возможности не предоставляются по умолчанию.

На автоматизированный тест было выделено более 700 000 часов на GPU, по мощности эквивалентном A100. Целью был поиск универсальных сценариев взлома, работающих не в одном аспекте, а в широком диапазоне контекстов.

Согласно оценкам OpenAI, Sol не повторила ошибки Mythos 5 от Anthropic и не выглядит «опасно продвинутой». В тестах с Chromium и Firefox модель выявляла уязвимости и примитивы эксплойтов, но не создавала функциональные эксплойты сама.

Тем не менее с запуском своей «солнечной системы» в «открытый космос» Сэм Альтман пока осторожничает.

Когда выйдет GPT 5.6: дата релиза

По договоренности с правительством США, OpenAI намеренно ограничила релиз. Компания прямо указывает, что такой режим не продлится долго. Но он рассматривается как оптимальный путь к широкому доступу, который, как уверяют, состоится в ближайшие недели.

Пока что ситуация такая:

API и Codex — уже поступили ограниченному кругу доверенных партнеров;
ChatGPT — ожидается в широком доступе, ориентировочно, в июле.

Ну и для нас в России остается открытым вопрос, когда и в каком виде эти модели станут доступны через сторонние интеграции и API-прокси. Следим за развитием событий.

Что же такое Sol/Terra/Luna: прорыв или рекламная уловка?

Скажем так: радикальная смена курса, которая сулит новые перспективы как в маркетинговом, так и в инженерном смысле.

Не чат-бот, а инфраструктура

Наконец-то OpenAI перешла к вменяемой системе названий. GPT-4o, GPT-4o mini, GPT-4 Turbo, GPT-4.5 — в этом зоопарке путались даже специалисты. Теперь, с Sol/Terra/Luna, покупатель сразу понимает, что берет: флагман, середняк или бюджетный вариант.

Выглядит как смена вывески, но всё не так просто. Стратегически это платформизация. OpenAI перестает постоянно продавать «чат-бота» («ога, вышел GPT-4! А теперь Turbo! А теперь 4o!») и занялась построением экосистемы. Sol/Terra/Luna — не просто модели, а слои инфраструктуры, под которые пишут продукты и затачивают весь стек разработки. Если хотите, OpenAI претендует на создание новой сетки координат.

Не просто LLM, а мультиагентная среда

Все считают «попугаев» в бенчмарках, но что тут принципиально нового? И так очевидно, что мощности будут расти, а цена токена — снижаться, все над этим работают. А вот что действительно интересно — это режим utra mode. По сути, OpenAI анонсировала мультиагентную систему под капотом «как бы» LLM.

Это и есть мейнстрим развития отрасли на ближайшие годы. Число параметров, скорость ответов и стоимость инференса перестали быть ключевой метрикой. Главное теперь — насколько долго ИИ сможет заниматься автономной работой, постоянно перепроверяя себя и сохраняя контекст задачи.

Вывод

Если GPT-5.6 Sol действительно соответствует заявленным возможностям, то следующим полем конкуренции станет уже не «самая умная модель», а самый надежный автономный агент, который способен неделями выполнять сложные проекты без постоянного контроля человека.

Это также объясняет, почему OpenAI всё чаще демонстрирует сценарии, где модель не просто отвечает на вопрос, а управляет компьютером, координирует инструменты и доводит работу до результата. Именно это, а не очередные несколько процентов на академических бенчмарках, создает основную экономическую ценность для корпоративных клиентов и AI-индустрии в целом.