ШАГ об искусственном интеллекте

ИИ-агент: маленький сотрудник в кармане

Скажите чат-боту «что приготовить на ужин на четверых» — он подскажет рецепт борща. Дальше всё сами: открыть приложение магазина, найти свёклу, положить в корзину, потом капусту, морковь, картофель, говядину, лук, сметану, хлеб; сверить срок доставки; подтвердить адрес, оплатить. На круг — десять-пятнадцать действий и минут двадцать. Чат-бот только пишет советы; делать всё в браузере и приложениях — ваша работа.

Скажите ИИ-агенту: «Закажи продукты на борщ для четверых с доставкой к семи вечера». Одно сообщение — и дальше всё делает агент.

Что такое ИИ-агент? Это программа, которая получает задачу естественным языком и доводит её до результата самостоятельно: разбирает запрос, выбирает подходящие инструменты, использует их по очереди или параллельно, проверяет промежуточные результаты и при сбое уточняет у пользователя. Чтобы агент работал, ему мало одной языковой модели — нужны программные инструменты, к которым модель умеет обращаться. Чем шире набор этих инструментов и чем точнее они описаны, тем больше задач агент закрывает без участия человека.

Разница с чат-ботом не в уме (он сравним), а в наборе рук. Пройдём по шагам и инструментам, которые агент включает на каждом:

  • Разбор запроса — большая языковая модель (Large Language Model, LLM): ChatGPT, Claude, Alice AI, GigaChat.
  • Поиск рецепта борща — поисковые API (Yandex Search API) и загрузка страниц (Web Fetch через httpx).
  • Расчёт количества ингридиентов — интерпретатор кода в песочнице (Code Interpreter: e2b.dev, OpenAI Code Interpreter).
  • Работа с сайтами продуктовых магазинов — управление браузером (Computer Use от Anthropic, Operator от OpenAI, Python-библиотека Browser Use поверх средства автоматизации браузеров Playwright): агент видит экран и кликает по кнопкам, как человек.
  • Прямой доступ в магазин — если у магазина есть программный интерфейс для разработчиков (Shop API), агент шлёт ему готовые команды напрямую, минуя экран. Если интерфейса нет — возвращается к управлению браузером из предыдущего пункта: медленнее, но работает на любом сайте.
  • Память о предпочтениях пользователя — векторная база (Vector Database: Chroma, Pinecone, Weaviate) с историей прошлых заказов.
  • Оплата — платёжный шлюз.
  • Календарь и отчёт — Calendar API (Яндекс.Календарь, Google Calendar) + бот в мессенджер (Bot API).
  • Уточнение при сбое — режим «Человек в контуре»: нет свёклы — агент останавливается и спрашивает у вас, прежде чем оплачивать.
В ближайшие 3–5 лет агенты возьмут на себя целые классы задач без непрерывного присутствия человека: личный секретарь, домашний управляющий, младший аналитик, ассистент учёного, помощник врача, дежурный службы поддержки. Это не уничтожит профессии, а сместит фокус работы человека — с исполнения к постановке задач и проверке результата. При этом направление остаётся открытым: как сделать агента надёжным (не путать «выполнено» с «выполнено правильно»), как заставить его объяснять собственные решения, как организовать команду из нескольких агентов, как защитить пользователя от ошибок и злого умысла — каждый вопрос открывает целое поле неизведанного, в котором сегодня можно стать первым. Главный навык эпохи агентов — не программирование, а умение точно ставить задачу и проверять результат; учиться ему стоит начинать уже сейчас.

Сергей Ермаков, старший преподаватель кафедры Инструментального и прикладного программного обеспечения Института информационных технологий МИРЭА — Российского технологического университета
2026-06-02 11:55