Обзор GLM-5.2: новая открытая модель от Z.ai

Китайская лаборатория Z.ai (ранее Zhipu AI) выпустила GLM-5.2 — новую флагманскую языковую модель, которая привлекла внимание сообщества благодаря сочетанию открытой лицензии, впечатляющих бенчмарков и доступной цены. Сегодня модель уже доступна как с открытыми весами на Hugging Face, так и через API от нескольких провайдеров, и можно сделать первые выводы о ее качестве и возможностях.

Главный баннер обзора новой открытой нейросети GLM-5.2 от компании Z.ai с характеристиками контекста и многоязычности.

Знакомимся поближе: GLM-5.2 в цифрах

GLM-5.2 — большая языковая модель, построенная на архитектуре Mixture-of-Experts (MoE). Это не первая модель в линейке — она приходит на смену GLM-5.1 и приносит ряд существенных улучшений.

При общем объеме в 753 млрд параметров модель активирует около 40 млрд параметров на один запрос. Главное улучшение GLM-5.2 по сравнению с предшественником — контекстное окно, увеличенное до 1 миллиона токенов. Для сравнения, у GLM-5.1 было только 200 тысяч токенов.

Стоимость использования модели через API — $1.40 за миллион входных токенов и $4.40 за миллион выходных. Это в разы дешевле конкурентов. Максимальная длина выходного ответа составляет около 128 тысяч токенов.

Показатели производительности также впечатляют: средняя задержка (время до первого токена) составляет 7.1 секунды, а пропускная способность — 86 токенов в секунду. Вопросы квантизации сейчас решаются провайдерами — например, один из API-провайдеров уже поддерживает формат FP8.

Важная особенность: GLM-5.2 выпущена под лицензией MIT, что разрешает коммерческое использование и модификацию без существенных ограничений. Это делает ее особенно привлекательной для компаний, которые хотят развернуть собственную инфраструктуру без роялти.

Инфографика и таблица стоимости LLM-моделей за 1 миллион токенов, сравнение цен на GLM-5.2, DeepSeek, Gemini, GPT и Claude.а

По ту сторону цифр: в чем фокус GLM-5.2?

Разница между 753B и 40B дает коэффициент разреженности около 18.8x. Это очень высокий показатель для MoE-моделей промышленного уровня. Для сравнения:

  • GPT-4 (по слухам) — соотношение 8-10x (1.8T всего / 280B на запрос).
  • DeepSeek-V3 — 6,5x (соответственно 671B / 37B).
  • Mistral 8×7B — всего 1,2x.

Но что означают эти цифры на практике?

Как работает Mixture-of-Experts

Архитектура MoE устроена по принципу «умного распределения задач». Представьте, что внутри модели работает не один универсальный специалист, а сотни узких экспертов: одни отлично пишут код, другие разбираются в юриспруденции, третьи — в медицине. Когда вы задаете вопрос, специальный диспетчер — роутер — мгновенно определяет, какие 3-4 эксперта лучше всего справятся с вашим запросом, и активирует только их.

Именно поэтому модель с общим объемом знаний в 753B параметров требует вычислительных ресурсов, сопоставимых с моделью на 40B. Вы платите только за ту часть общего веса, которая релевантна вашему вопросу.

Почему это сложно реализовать

Главная инженерная проблема таких систем — научить роутер не ошибаться. Если диспетчер постоянно отправляет запросы одним и тем же экспертам, а другие простаивают, эффективная мощность модели падает. Это называется «коллапсом маршрутизации», и с ним борются все разработчики MoE-моделей.

Z.ai утверждают, что достигли коэффициента разреженности 18.8 — если это правда, то они сделали настоящий инженерный подвиг, упаковав, условно говоря, мощность новейшего «рейндж ровера» в габариты и цену подержанной Kia Rio.

Это открывает новые сценарии использования, прежде всего, при работе с массивами данных, где не важна задержка, но имеет значение пропускная способность. Модель стабильно и корректно обсчитывает длинные последовательности, что критично для работы с большими кодовыми базами, документацией или длительными агентными траекториями.

Цена вопроса: экономия или иллюзия?

Формально стоимость токена у GLM-5.2 в 3-4 раза ниже, чем у GPT-4o — $1.40 против $5 за входные токены. Однако пользователи замечают, что модель генерирует более длинные ответы — примерно на 40-70% длиннее, чем конкуренты на аналогичные запросы.

Это обратная сторона продвинутой работы роутера. Когда модель не на 100% уверена в выборе эксперта, она компенсирует эту неуверенность избыточной генерацией, добавляя пояснения и дублируя ключевые мысли. В результате вы получаете качественный ответ, но за большее количество токенов. Итоговая стоимость задачи может не отличаться от использования более дорогих конкурентов.

Что это означает для бизнеса?

  • Для компаний, которые обрабатывают большие объемы данных в пакетном режиме — например, анализируют тысячи документов или генерируют отчеты — GLM-5.2 может оказаться значительно выгоднее.
  • Для интерактивных приложений, чат-ботов и систем реального времени экономический эффект менее очевиден. Каждый диалог может обернуться неожиданно большим счетом из-за длинных ответов. Требуется тщательное A/B-тестирование на своих данных, чтобы понять, действительно ли вы сэкономите.

Бенчмарки: сравнение GLM-5.2 с конкурентами

Но вернемся опять к цифрам и познакомимся с результатами бенчмарков.

В тестах GLM-5.2 дает показатели, сопоставимые с лучшими проприетарными моделями. По данным Artificial Analysis, модель занимает первое место среди открытых весовых моделей в рейтинге Intelligence Index v4.1 с показателем 51 балл, опережая MiniMax-M3 и DeepSeek V4 Pro, у которых по 44 балла.

Сравнительные гистограммы производительности LLM-моделей GLM-5.2, GLM-5.1, Claude Opus, GPT и Gemini в технических бенчмарках (SWE-bench Pro, Terminal-Bench).

При этом, напоминаем, GLM-5.2 расходует больше токенов на выполнение типовых задач — около 43 тысяч выходных токенов на задачу против 24-37 тысяч у конкурентов.

В бенчмарках кодинга модель особенно сильна. GLM-5.2 занимает второе место на Code Arena WebDev Leaderboard, уступая лишь временно отключенному Claude Fable 5. По некоторым данным, модель даже незначительно опережает GPT-5.5 на FrontierSWE — примерно на 1%, и занимает первое место среди всех открытых моделей в бенчмарках длительного кодинга. На стандартном тесте MMLU результат GLM-5.2 оценивается в 87.3 балла, что почти вплотную приближается к 87.2 у GPT-4o.

График оценки моделей искусственного интеллекта в долгосрочных задачах (Long-Horizon Task Evaluation) для FrontiersSWE, PostTrainBench и SWE-Marathon.

Что это значит на практике

Тесты показывают, что китайская новинка уверенно справляется с созданием игр, веб-интерфейсов и миграцией проектов. В реальных сценариях разработчики отмечают, что модель способна самостоятельно разбивать задачу на подзадачи и запускать нескольких агентов для анализа кодовой базы.

Однако есть и негативные особенности, о которых важно знать.

Разреженная архитектура модели имеет фундаментальное ограничение: роутер принимает решение о выборе экспертов на основе статистических паттернов, которые модель выучила во время обучения. Как только запрос выходит за рамки шаблона (требует нестандартной логики, редкого сочетания областей знаний) — вероятность ошибки роутера возрастает.

Поэтому GLM-5.2 хороша в задачах, которые широко представлено в обучающих датасетах (те самые игры и веб-интерфейсы), но может дать сбой на узкоспециализированных инженерных задачах.

Отзывы и оценки пользователей

Сообщество приняло GLM-5.2 с интересом, но не без критики.

Разработчики положительно отмечают доступность открытых весов, хорошую работу с китайским и английским языком (по русскому отзывов пока нет) и конкурентную цену. Спрос действительно высок: квота на покупку пакета Coding Plan разбирается за считанные минуты.

В пользовательских тестах модель показала себя достойно в игровых и демонстрационных проектах, а также успешно справилась с миграцией локального проекта на мобильное устройство, продемонстрировав способность самостоятельно искать неочевидные решения.

Однако существуют и критические отзывы. В одном из тестов специалист по компиляторам указал на проблемы модели с задачами, выходящими за рамки стандартных шаблонов. Модель сгенерировала компилируемый код, но он не соответствовал поставленной задаче, несмотря на наличие примеров. При этом за работу было списано около $17.

Это показывает ограничения GLM-5.2 в узкоспециализированных областях, где требуется глубокое понимание контекста.

Как мы говорили выше, модели от Z.ai склонны «перечитывать» и генерировать избыточные объемы текста. При поточном тарифе это увеличивает расходы.

Для кого представляет интерес GLM-5.2

Давайте разберем основные профили пользователей, для которых GLM-5.2 может стать перспективным рабочим инструментом.

  • Стартапы и небольшие ИИ-команды — основная аудитория модели. Возможность использования MIT-лицензии позволяет создавать коммерческие продукты без выплаты роялти, а низкая цена API делает модель доступной для бюджетных проектов. В условиях, когда API-запросы становятся значительной статьей расходов, переход на GLM-5.2 может сократить затраты до 80%.
  • Разработчики, работающие с большими кодовыми базами — контекстное окно в 1 млн токенов идеально подходит для работы с репозиториями, рефакторинга и документации. Модель показывает хорошие результаты в многошаговых инженерных задачах и способна анализировать весь проект целиком.
  • Исследователи и энтузиасты open-source — открытые веса под MIT-лицензией позволяют изучать, дообучать и экспериментировать с моделью. Это ценный ресурс для академических исследований и создания специализированных сборок.
  • Компании с жесткими требованиями к стоимости — GLM-5.2 предлагает альтернативу дорогим западным решениям с минимальной потерей качества для задач, не требующих максимальной точности. Сравнение GLM-5.2 и конкурентов показывает, что модель конкурентоспособна по соотношению цена-качество. Однако перед внедрением важно протестировать модель на своих сценариях — особенно если речь идет о нестандартных задачах с высокой ответственностью.
Плюсы
  • + Открытая лицензия MIT, разрешающая коммерческое использование и модификацию модели без ограничений.
  • + Контекстное окно в 1 млн токенов позволяет обрабатывать целые кодовые базы и многотомные документы.
  • + Стоимость API в несколько раз ниже, чем у ведущих западных моделей.
  • + Высокая производительность в бенчмарках кодинга и решение агентных задач с автономным разбиением на подзадачи.
Минусы
  • - Модель часто генерирует избыточное количество токенов, что увеличивает итоговые расходы при поточном тарифе.
  • - На сложных нестандартных задачах модель может давать ошибочные или нерелевантные ответы.
  • - Нет поддержки мультимодальности, только текст. Для работы с изображениями требуется отдельная модель GLM-5V-Turbo.

Вывод

GLM-5.2 от Z.ai — значительный шаг вперед для открытых языковых моделей. Сочетание огромного контекстного окна, архитектуры MoE, низкой цены и открытой MIT-лицензии делает модель серьезным игроком на рынке. Бенчмарки подтверждают ее конкурентоспособность с ведущими проприетарными моделями, особенно в задачах кодинга и работы с длинными текстами.

При этом GLM-5.2 не лишена недостатков. Склонна к избыточной генерации, что увеличивает расходы, а на сложных нешаблонных задачах может ошибаться там, где более дорогие аналоги показывают лучший результат.

Для большинства практических сценариев — особенно в разработке, стартапах и исследовательских проектах — GLM-5.2 станет отличным выбором. Однако для узкоспециализированных областей, требующих высокой точности, стоит провести тщательное тестирование перед внедрением.

Часто задаваемые вопросы

Что такое GLM-5.2? Toggle
Это флагманская языковая модель от китайской лаборатории Z.ai с архитектурой Mixture-of-Experts, 753 млрд параметров и 1 млн токенов контекстного окна.
Сколько стоит GLM-5.2? Toggle
Использование через API стоит $1.40 за миллион входных токенов и $4.40 за миллион выходных токенов.
Можно ли использовать GLM-5.2 бесплатно? Toggle
Модель распространяется под лицензией MIT, но для работы через API требуется оплата; веса модели доступны бесплатно.
Чем GLM-5.2 отличается от GPT-4o? Toggle
GLM-5.2 значительно дешевле, открыта под MIT и показывает сопоставимые результаты в бенчмарках, но может уступать на сложных нешаблонных задачах.
Требуется ли мощное железо для запуска GLM-5.2? Toggle
Для запуска полной модели с 753 млрд параметров необходимо несколько высокопроизводительных GPU, но Inference доступен через облачных провайдеров.
Это мультимодальная модель? Toggle
Нет. GLM-5.2 работает только с текстом и кодом. Для работы с изображениями требуется отдельная модель GLM-5V-Turbo.