Large Action Model: что такое большие модели действий и как они работают

Содержание страницы

Вместо тысячи слов: как устроена Large Action Model
Как работает LAM-модель
Заменит ли LAM человека?
Где применяются LAM: примеры для бизнеса и жизни
Вывод

Представьте, что вы просите ИИ-ассистента: «Закажи пиццу». Обычный чат-бот выдаст список ближайших пиццерий и текстовую инструкцию. А вот если ваш бот работает на базе больших моделей действий или Large Action Model (LAM) — всё будет иначе. Он сам откроет приложение доставки, выберет вашу любимую пиццу из истории покупок, оплатит вашей картой и пришлет трекер курьера.

Большие модели действий или LAM - что это такое?

Термин LAM стал широко известен в 2024 году после презентации устройства Rabbit R1. Сегодня эта разновидность искусственного интеллекта уже активно применяется в быту и на предприятиях.

Вместо тысячи слов: как устроена Large Action Model

Большие модели действий — следующий этап эволюции генеративного ИИ. Они не просто генерируют текст, а совершают реальные действия: кликают по кнопкам, заполняют формы, работают с API и даже управляют оборудованием. Если LLM — это мозг, который может общаться, то LAM — мозг, снабженный довольно умелыми руками. Он не только говорит, но и делает.

«Большие модели действия» строятся на основе «рассуждающих» моделей типа ChatGPT. Но в их архитектуру добавлены три важных надстройки:

Планировщик — продумывает задачу шаг за шагом.
Исполнитель — непосредственно выполняет эти шаги.
Валидатор — смотрит на результат и дает оценку правильности каждого шага.

Такие ИИ обучаются не на книгах и текстах, а на реальных действиях: записывают, куда люди тычут мышкой, какие кнопки нажимают, когда получается удачно, а когда — нет. Пробуют сами, потом улучшают свои действия.

Благодаря этому LAM обладает известной гибкостью. Если интерфейс сайта или программы изменился — она это замечает и подстраивается на ходу, не ломаясь.

Как работает LAM-модель

Принцип действия Large Action Model складывается из нескольких составляющих.

Восприятие. ИИ понимает не только текст в чате, но и окружающую цифровую среду: скриншоты экрана, голосовые команды в микрофоне, логи программ и интерфейсы приложений. Он буквально «видит», что происходит на экране, как человек.

Планирование. Когда вы даете задачу, например «подготовь отчет по продажам», LAM сама разбивает ее на мелкие шаги: собрать данные из базы, посчитать цифры, нарисовать графики, оформить документ, отправить начальнику. Обдумывает, в каком порядке их лучше выполнять и что делать, если что-то пойдет не так.

Исполнение. Самое главное! LAM, подключенная к вашему компьютеру, может:

кликать мышкой по кнопкам;
заполнять формы;
заходить в программы;
работать через API.

При правильной настройке это дает радикальное повышение продуктивности. LAM может взять на себя до 80% рутинных офисных задач. К тому же модель не устает и способна 24/7 обрабатывать тысячи заявок без перерывов.

Однако у такой супертехнологичности есть и оборотные стороны:

Высокая сложность разработки и стоимость внедрения. То и другое требует огромного объема программирования и дообучения модели, отработки сценариев, учета специфики.
Сохраняется риск «галлюцинаций». Он ниже, чем у LLM, но связан с выполнением действий. Отсюда вытекает следующий пункт.
Вопросы безопасности и ответственности. Если галлюцинирует LLM, вы просто получаете неверный ответ. Но если заглючит LAM — может наломать дров. Деньги уйдут не туда, билеты будут куплены не на то число, трубы отгружены не тому заказчику. Да и правовая база на случай подобных казусов пока отсутствует.
Наконец, интеграция со старым ПО — отдельная сложная тема.

Заменит ли LAM человека?

Некоторые считают «модели действия» серьезным шагом в сторону AGI — «общего» искусственного интеллекта из фильмов, который способен не хуже человека действовать в реальном мире, самостоятельно ставить цели, планировать, учиться на ошибках и адаптироваться к новым ситуациям.

Однако LAM пока не обладают собственным пониманием мира и настоящим мышлением, зависит от качества данных и внешних инструментов — API, интерфейсов и т.п. Поэтому:

хорошо работают только в ограниченных, заранее известных сценариях — например, в рамках одной программы или определенного бизнес-процесса;
часто нуждаются в контроле, особенно в важных вопросах: финансы, юридические документы, безопасность;
могут «растеряться» или сделать ошибку, если ситуация сильно отличается от шаблонов, на которых обучена модель.

В общем, как и в случае с LLM, «большие модели действия» по-прежнему зависят от людей. Хотя и способны взять на себя огромный объем нудных, скучных или обыденных функций.

Где применяются LAM: примеры для бизнеса и жизни

Технология LAM активно развивается и в мире, и у нас. Крупные отечественные компании уже внедряют у себя подобные решения. Сбер использует LAM-ассистентов в поддержке, AIRI разрабатывает автономные модели для робототехники, «Солар» создает агентов по кибербезопасности, Яндекс экспериментирует с повышением самостоятельности «Алисы».

Однако среди обычных пользователей массового интереса к «моделям действия» не наблюдается. Западные платформы вроде Rabbit R1 сейчас недоступны из-за санкций. Есть OpenClaw, который отлично скачивается и работает в РФ. Но его установка требует определенной продвинутости.

И все-таки мы уверены, что LAM со временем займут достойное место и дома, и на производстве.

Вот несколько типичных сценариев, где LAM могут взять работу на себя.

Для личных целей:

бронирование отелей, покупка билетов, заказ товаров с доставкой;
управление календарем: согласовать встречу, забронировать переговорную;
анализ документов с действием, типа: «Найди штрафы в договоре и отправь юристу».

Для бизнеса:

Поддержка клиентов: LAM-модель умеет самостоятельно закрывать тикеты — проверяет статус заказа, оформляет возврат. В Сбере такой ИИ-помощник увеличил скорость маршрутизации в 3,5 раза.
Финансы и закупки. Модель забирает счет из почты, создает документ в 1С, отправляет на согласование.
Кибербезопасность. ИИ анализирует угрозы, запускает диагностику, блокирует действия.
Промышленность. Наиболее перспективная сфера, особенно в опасных или сложных для человека производствах. Например, ведутся разработки роботов-шахтеров на базе LAM. Также их активно внедряют в системы контроля работы атомных электростанций, есть проекты и космического применения.

Плюсы

Радикальное повышение продуктивности
Снижение ручного труда и ошибок
Гибкость и адаптация к изменениям
Масштабируемость 24/7
Серьезный шаг в направлении создания AGI

Минусы

Сложность разработки
Высокая стоимость внедрения
Непрописанное правовое поле и вопросы ответственности
«Галлюцинации» модели становятся на порядок опаснее
Плохая интеграция с устаревшими системами

Вывод

Большие модели действий — не маркетинговый шум, а действительно новый горизонт эволюции агентных LLM. Они превращают ИИ из собеседника в автономного исполнителя. Для бизнеса это существенная оптимизация процессов, для пользователей — возможность избавиться от рутины. Но внедрение требует осторожности: данные, контроль, понимание границ. В России технология развивается в корпоративном сегменте. Следите за рынком AI-агентов — в ближайшие 3-5 лет он вырастет многократно.

Часто задаваемые вопросы

Чем LAM отличается от обычного чат-бота?

Чат-бот только отвечает на вопросы, а LAM самостоятельно выполняет определенный набор действий: запускает приложения, формирует и отправляет заявки и т.п.

Может ли LAM наделать ошибок?

LAM считается более безопасным, чем LLM, но тоже может галлюцинировать. Поэтому в ответственных сценариях требуется контроль человека.

Доступны ли LAM в России?

В корпоративном секторе такие модели активно внедряются. Частные пользователи могут попробовать OpenClaw.

Это дорого?

Мощные корпоративные модели стоят дорого, особенно для сложных цепочек действий. Но есть и опенсорсные проекты. Технология со временем дешевеет.