9 мин.

Что такое агентский режим работы нейросети и как он поможет вам заказать роллы

Или даже улететь в путешествие.

В мире нейросетей происходит эволюция: от простых инструментов, отвечающих на вопросы, к исполнителям, способным действовать без участия человека. Таким качественным скачком стал агентский режим работы нейросети. Это принципиально новый подход, превращающий ИИ из справочника в активного помощника, берущего на себя выполнение многошаговых задач без постоянного контроля человека.

Что такое агентский режим?

Агентский режим работы нейросети (ИИ-агент) – подход, при котором она действует автономно, принимая решения и совершая действия для достижения поставленной цели. 

В отличие от традиционных ИИ-ассистентов, которые лишь предоставляют информацию или ограниченные действия по команде, агентский ИИ работает независимо, используя свои внутренние модели, алгоритмы обучения и процессы принятия решений для навигации в цифровой среде.

По сути, агент – не столько инструмент, сколько исполнитель. Он берет на себя управление браузером или компьютером. Представьте себе турагента: вы говорите, что хотите поехать в Испанию, а он самостоятельно подбирает направления и даты, сравнивает цены, бронирует жилье и покупает билеты, отчитываясь вам о результате.

Как они работает?

Самостоятельная работа с программами

Нейросеть получает задачу, например, «Забронируй столик в итальянском ресторане на субботу вечером на 2 человек», а после начинает именно взаимодействовать с другими программами и сервисами, а не просто находить информацию. 

Взаимодействие с интерфейсами

Агент не обрабатывает базы данных. Вместо этого он использует API сайтов и приложений для структурированного взаимодействия. Также агенты могут действовать как человек: «сканировать» страницу с помощью компьютерного зрения, находить элементы интерфейса (кнопки, поля ввода) и взаимодействовать с ними.

Решение многоступенчатых задач

Ключевое отличие от ассистентов типа «вопрос-ответ». Обычный ИИ может найти ресторан или даже показать форму бронирования. Агент же берет весь процесс на себя: найдет ресторан, проверит доступность, заполнит форму бронирования вашими данными, выберет время, отправит запрос и получит подтверждение.

📌Нейросеть обманула пожилую пару: пенсионеры проехали 370 км ради несуществующей канатной дороги

Автономность

Агент действует без постоянного вмешательства человека на каждом шагу. Если в процессе возникнет непредвиденная ситуация (например, капча или выбор между двумя разными вариантами), агент принимает решение сам, исходя из контекста задачи и своих алгоритмов. Его цель – довести задачу до конца, а не передать управление обратно пользователю при первой сложности.

Собственная инициатива

Наиболее продвинутые агенты способны проявлять инициативу в рамках поставленной задачи, находить неочевидные пути решения и адаптироваться к изменяющимся условиям без запроса помощи.

Суть ИИ-агентов заключается именно в этой способности автономно работать над сложными процессами, требующими решений на месте и принятия незапланированных решений.

Виды ИИ-агентов

По уровню сложности и возможностей:

  • Реактивные агенты: действуют здесь и сейчас, без памяти и обучения.

  • Агенты, специализирующиеся на задачах: очень эффективны в узкой области, обучаются на специфических данных (например, медицинская диагностика).

  • Контекстно-зависимые агенты: учитывают контекст, динамику ситуации, собирают данные из разных источников.

  • Социальные агенты: распознают и учитывают человеческие эмоции, намерения, социальные нормы.

  • Саморефлексивные агенты: способны анализировать собственные решения и улучшать свои алгоритмы.

По уровню автономности:

  • L1 (Помощник): выполняет простые задачи по четким инструкциям, требует постоянного подтверждения. Пример – обычные нейросети, вроде ChatGPT или DeepSeek.

  • L2 (Автономный исполнитель): может выполнять многошаговые задачи, принимать простые решения в рамках задачи, требует подтверждения ключевых шагов или результатов. Пример – ChatGPT в агентском режиме.

  • L3 (Условная автономия): самостоятельно выполняет сложные задачи, обращаясь к пользователю только в нестандартных ситуациях. Пока что моделей такого уровня и выше еще не разработали.

  • L4 (Высокая автономия): выполняет задачи высокой сложности в определенной области почти полностью самостоятельно.

  • L5 (Полная автономия): полностью автономные агенты, действующие в любых условиях без вмешательства человека.

Например, недавний агент Operator от OpenAI можно условно отнести к L2, так как он способен не только искать информацию, но и совершать действия (заполнять формы, делать заказы), запрашивая подтверждение у пользователя на некоторых шагах вроде оплаты заказов.

📌Кнопочный телефон со встроенным DeepSeek? Это реальность

Реальные примеры

Пользователь Reddit обнаружил, что ChatGPT в агентском режиме успешно справился с капчей Cloudflare, восприняв это как необходимый шаг для продолжения работы. Причем это было не целью пользователя, а инициативой агента. ChatGPT просто отчитался, что «этот шаг необходим, чтобы доказать, что я не бот, и продолжить действие».

Тот же ChatGPT по запросу проанализировал старый анекдот про количество спичек в коробке. Агент самостоятельно исследовал рунет, соцсети и сайты, чтобы установить, что сейчас в коробок кладут в среднем 38-40 спичек.

Еще он может:

  • Собрать продуктовую корзину в Walmart по самым низким ценам для рецепта чизкейка.

  • Бронирование авиабилета для полета в другую страну через booking.com.

Пользователь попросил агента Manus от ManusAI спланировать недельную поездку в Японию с учетом бюджета, интересов и дат. Manus создал полноценный кликабельный сайт с детальным планом на каждый день, картами, словариком, этикетом, погодой, курсом валют и экстренными контактами.

Genspark от MainFunc создал рецепт блюда из трески с фисташками и каламанси и сгенерировал для него видеоролик в соцсети. Другой пользователь прислал ссылку на 5-часовой подкаст, а Genspark сделал презентацию на 10 слайдов с пересказом и стильным дизайном.

Агент Claude прочитал статью по ссылке, законспектировал ее и отправил пересказ на почту. В другом случае Claude просмотрел видео со стройплощадки, сделал скриншоты, проанализировал соблюдение техники безопасности и составил таблицу с рекомендациями.

Какие есть агенты и сколько они стоят?

ChatGPT в режиме «Агент»

Использует модель «Computer-Using Agent» для навигации по сайтам и выполнения действий.

Исследовательское превью для подписчиков ChatGPT Pro за $200 (16 000 рублей) в месяц. Требуется дополнительная очередь/доступ к превью Agent.

Manus 

Работает в браузере, создает документы и сайты.

Чтобы получить доступ – надо заполнить форму для приглашения. Если вас пригласят, то надо будет оплатить подписки: $39 в месяц (3 100 рублей) или $199 в месяц (16 000 рублей).

Computer Use (Claude)

Управление ПК, а локальными файлами, программами и браузером.

Доступен только для разработчиков через API. Цена: $3 (240 рублей) за 1 миллион входных токенов, $15 (1200 рублей) за 1 миллион выходных токенов.

Токен – единица информации, с которой работает любая нейросеть. Это могут быть отдельные буквы, цифры, символы или целые слова – все зависит от конкретного ИИ. Входные токены тратятся на то, что вы пишете в запросе для нейросети. Выходные – на то, что она пишет вам в ответ.

📌Безумный баг Яндекса: Алиса рисует обнаженных женщин

Genspark

Работает на базе 9+ моделей от других компаний (OpenAI, Anthropic, DeepSeek и других), благодаря чему обладает мультимодальностью – работает с текстом, изображениями и видео.

Есть бесплатный план в 200 кредитов на день, но его хватает всего на 1 несложный запрос, так что придется брать подписки за $20 (1 600 рублей) в месяц.

AutoGLM от Zhipu AI

Есть навигация по интернету, планирование, отчеты на базе собственных китайских моделей.

Это бесплатное расширение для Chrome, но с нюансом – работает только на китайском и требует китайский номер телефона для регистрации.

* * *

ИИ-агенты – революционный шаг в развитии нейросетей, превращая их из источника информации в автономного исполнителя сложных задач в цифровой среде. Их способность самостоятельно взаимодействовать с программами, сайтами, анализировать данные и принимать решения открывает огромные перспективы для автоматизации рутинных задач – от планирования поездок и покупок до аналитической работы и создания контента.

Но пока технология находится на ранней стадии развития. Главные ее проблемы – высокая стоимость к и труднодоступность. Тем не менее, их развитие позволяет ожидать, что в ближайшее время агентский режим станет более доступным для всех людей.

* * *

Grok стал 18+. ИИ-компаньон раздевается и хочет страсти

ИИ не умеют в шахматы. Нейросети позорно проиграли 50-летней консоли