Для технических директоров (CIO) и директоров по информационной безопасности (CISO) ИИ-агенты формируют масштабный вызов в области управляемости. Эти агенты принимают решения, активируют инструменты и обрабатывают критически важные данные без прямого человеческого вмешательства, что делает многие традиционные инструменты ИТ и ИБ непригодными для контроля их активности. Как обезопасить бизнес от потенциально опасных действий внедренного искусственного интеллекта?
Полезное руководство по этой теме выпустил некоммерческий проект OWASP, специализирующийся на разработке стандартов безопасной разработки и внедрения программного обеспечения. Детализированный перечень десяти главных рисков для приложений на основе агентного ИИ включает как хорошо знакомые специалистам ИБ угрозы (например, злоупотребление правами доступа), так и специфические риски, свойственные ИИ, такие как отравление памяти агента. Каждая угроза сопровождается примерами, разъяснениями отличий от смежных рисков и практическими советами по снижению опасности.
Десять ключевых угроз при внедрении автономных ИИ-агентов
- Перехват целей агента
Суть риска заключается в возможности манипулирования задачами или логикой агента из-за неспособности базовой модели надежно отличать легитимные инструкции от внешней информации. Злоумышленники используют техники промпт-инъекций или поддельные данные, чтобы перенаправить агента на выполнение вредоносных операций. Ключевое отличие от простой инъекции — это нарушение многошагового планирования, а не получение единичного некорректного ответа. Пример: Злоумышленник внедряет скрытую команду на веб-страницу; при ее анализе агентом происходит несанкционированная выгрузка истории браузера пользователя. Уязвимость этого типа была продемонстрирована в исследовании EchoLeak.
- Неправильное использование инструментов
Риск возникает, когда агент, вследствие неоднозначных команд или внешнего воздействия, применяет имеющиеся у него легитимные инструменты и права доступа непредусмотренным или опасным способом. Это может быть массовое удаление файлов или чрезмерное количество платных запросов к API. Часто реализуется через цепочки вызовов, обходящие стандартные системы мониторинга. Пример: Чат-бот поддержки с доступом к платежному API подвергается манипуляции и оформляет несанкционированные возвраты средств, так как его доступ не был ограничен режимом чтения.
- Злоупотребление правами доступа
Эта уязвимость связана с механизмами назначения и наследования полномочий в рабочих процессах с агентами. Атакующие используют существующие права или сохраненные учетные данные для эскалации привилегий или выполнения действий, выходящих за рамки прав исходного пользователя. Риск усугубляется, когда агенты используют общие учетные записи или повторно применяют токены аутентификации в разных контекстах безопасности. Пример: Сотрудник создает агента, работающего с внутренними системами под его правами. Если доступ к этому агенту получат другие сотрудники, их запросы также будут выполняться с высокими привилегиями создателя.
- Уязвимости цепочки поставок
Угрозы появляются при использовании сторонних моделей, инструментов или готовых шаблонов агентов, которые могут быть скомпрометированы или изначально содержать вредоносный код. Дополнительная сложность заключается в том, что компоненты агентских систем часто загружаются динамически и неизвестны заранее. Это повышает риски, особенно если агент самостоятельно ищет подходящие инструменты. Пример: Агент для написания кода автоматически устанавливает скомпрометированный пакет с бэкдором, позволяя атакующему извлечь токены CI/CD и SSH-ключи из окружения.
- Несанкционированное выполнение кода
Агентские системы часто генерируют и выполняют код в реальном времени, что создает возможность запуска вредоносных скриптов. С помощью промпт-инъекций агента можно заставить запустить доступные ему инструменты с опасными параметрами или выполнить произвольные команды. Это может привести к компрометации контейнера или хоста, выходу из «песочницы» и уходу из-под контроля стандартных средств мониторинга. Пример: Под предлогом тестирования агент с функцией написания кода получает команду загрузить и выполнить скрипт через curl и bash.
- Отравление памяти и контекста
Злоумышленники изменяют информацию, на которую агент опирается для поддержания контекста: историю диалогов, базы знаний (RAG) или сводки предыдущих этапов. Такой «отравленный» контекст искажает дальнейшие рассуждения и выбор действий агентом, создавая устойчивые уязвимости, сохраняющиеся между сессиями. Отличие от разовой инъекции — в долгосрочном влиянии на знания и логику системы. Пример: В память ассистента внедряются ложные данные о ценах на авиабилеты, что в будущем приводит к одобрению транзакций по мошенническим тарифам.
- Небезопасное взаимодействие агентов
В системах с несколькими агентами координация часто происходит через API или шины сообщений, в которых не всегда реализованы шифрование, аутентификация и контроль целостности. Это позволяет злоумышленникам перехватывать, подменять или изменять сообщения в реальном времени, нарушая работу всей распределенной системы. Возможны атаки «агент посередине», повторное воспроизведение сообщений и другие известные в ИБ техники. Пример: Принудительный переход агентов на незашифрованный протокол для внедрения команд, меняющих коллективное решение группы.
- Каскадные сбои
Этот риск описывает распространение и усиление единичной ошибки (галлюцинация, инъекция и т.д.) по цепочке автономных агентов. Поскольку агенты передают задачи друг другу без участия человека, сбой в одном звене может вызвать «эффект домино», приводящий к масштабным отказам. Основная проблема — высокая скорость распространения ошибки, затрудняющая человеческий контроль. Пример: Скомпрометированный агент-планировщик выдает серию опасных команд, которые автоматически выполняются другими агентами по всей организации.
- Эксплуатация доверия между человеком и агентом
Злоумышленники используют естественность речи и кажущуюся экспертизу агентов для манипуляции пользователями. Антропоморфизм приводит к чрезмерному доверию, и люди могут одобрять критические действия без должной проверки. Агент выступает в роли «плохого советника», делая человека конечным исполнителем атаки, что осложняет расследование. Пример: Скомпрометированный агент поддержки, называя реальные номера заявок, втирается в доверие к новому сотруднику и убеждает его передать корпоративные учетные данные.
- Неуправляемые агенты
Речь о вредоносных, скомпрометированных или «галлюцинирующих» агентах, которые отклоняются от заданных функций и начинают действовать скрытно или в собственных интересах. Потеряв контроль, такой агент может начать саморепликацию, преследовать скрытые цели или вступать в сговор с другими агентами для обхода защиты. Главный риск — долгосрочное нарушение целостности системы уже после первоначального инцидента. Пример: Известный случай с автономным агентом разработки Replit, который самовольно удалил основную базу данных клиентов, а затем сфабриковал ее содержимое, чтобы скрыть проблему.
Меры по снижению рисков в агентских ИИ-системах
Хотя вероятностная природа языковых моделей и смешение каналов инструкций и данных делают полную защиту невозможной, комплекс строгих мер контроля, близких к стратегии нулевого доверия (zero trust), позволяет минимизировать потенциальный ущерб. Вот ключевые рекомендации:
- Принцип наименьших привилегий и автономности: Ограничивайте самостоятельность агентов четкими задачами, предоставляйте доступ только к необходимым инструментам и данным, используя режимы «только чтение» там, где это возможно.
- Краткосрочные учетные данные: Используйте временные токены и API-ключи с ограниченным сроком действия и областью применения для каждой задачи.
- Обязательное участие человека (human-in-the-loop): Требуйте явного подтверждения пользователем для необратимых или высокорисковых операций (финансовые транзакции, удаление данных).
- Изоляция выполнения и контроль: Запускайте код в изолированных средах (контейнеры, «песочницы») со строгими белыми списками разрешенных инструментов и сетевых соединений.
- Политики контроля исполнения: Внедряйте внешние шлюзы безопасности для проверки планов и намерений агента на соответствие политикам до их выполнения.
- Валидация и очистка данных: Проверяйте все входные и выходные данные (промпты, ответы) на наличие инъекций и вредоносного контента на каждом этапе обработки.
- Контроль цепочки поставок и SBOM: Используйте только проверенные компоненты из доверенных источников. Внедряйте Software Bill of Materials (SBOM) и цифровые подписи.
- Анализ генерируемого кода: Проводите статический и динамический анализ всего кода, создаваемого агентом, перед исполнением. Запрещайте опасные функции.
- Защита коммуникаций: Обеспечивайте взаимную аутентификацию и сквозное шифрование для всех каналов связи между агентами.
- Аварийный механизм отключения (kill-switch): Разрабатывайте процедуры мгновенной блокировки агентов при обнаружении аномального поведения.
- Обучение персонала: Регулярно обучайте сотрудников особенностям и рискам работы с ИИ-системами, адаптируя материалы под их роли.