Перейти к основному содержимому
Средний

Лестница доверия

«Насколько мне стоит позволить ИИ просто делать?» — это вопрос, стоящий почти за каждым решением об агентах: разрешения Claude Code, настройки автоодобрения, стоит ли давать скрипту работать без присмотра. Люди склонны отвечать на него как на единственный переключатель «вкл/выкл»: либо вы нянчитесь со всем, либо отпускаете на волю.

Вот линза, которую AILmanac использует вместо этого:

Автономия — это не переключатель, это лестница. Вы поднимаетесь по ней по одной ступени за раз, и ступень, на которой вы стоите, должна определяться тем, насколько плоха была бы ошибка, — а не тем, насколько вы доверяете модели.

Ключевая мысль в том, что правильный уровень автономии почти не связан с тем, насколько «умён» ИИ. Дело в радиусе поражения (сколько вреда наносит ошибочное действие) и обратимости (насколько легко его отменить). Блестящая модель, делающая необратимое без присмотра, — это худшая конфигурация, чем посредственная модель, делающая обратимое.

Пять ступеней

Модель, которую мы находим полезной, — мыслить пятью отдельными ступенями, от наименьшей автономии к наибольшей:

СтупеньЧто делает ИИКогда это уместноЧто делает это безопасным
1. Только предлагатьСообщает, что он сделал бы; никаких действий не предпринимаетРабота с высокими ставками или необратимая; область, в которой вы ему пока не доверяете; вы ещё изучаете, в чём он хорошИсполнитель — вы. Ничего не происходит без того, чтобы вы сделали это вручную.
2. Черновик на проверкуПроизводит сам артефакт (код, письмо, запрос), но останавливается перед его применениемРезультат конкретен, и вы можете окинуть его взглядом быстрее, чем написали бы самиНастоящий человек прочитал, прежде чем что-либо вступило в силу. Дифф, в который вы действительно вглядываетесь, а не пробегаете глазами.
3. Действовать с обратимымВыполняет напрямую, но только малорисковые, легко отменяемые действияУ действия есть чистая отмена: правки под контролем версий, записи в черновую ветку, всё, что откатывается одной командойОбратимость — это ограждение. Цена ошибки — «отмени её», а не «объясни её юристам».
4. Действовать и отчитыватьсяДелает работу автономно, затем показывает вам в точности, что сделалПовторяющиеся, хорошо очерченные задачи, где проверять после дешевле, чем шлюзовать доПолный, честный аудиторский след — лог, дифф, сводка, — который вы действительно читаете после.
5. Действовать автономно в пределах огражденийРаботает без присмотра внутри жёстких границУзкие, хорошо понятные циклы, успех которых вы наблюдали много разНадзор осуществляют ограждения. Жёсткие границы, которые ИИ не может пересечь, плюс аварийный выключатель.

Как пользоваться лестницей

Три правила делают это применимым на практике:

Начинайте на одну ступень ниже, чем кажется необходимым. Подняться на ступень дёшево, когда вы уже видели, как что-то работает; дорого разгребать последствия после того, как предоставил слишком много и слишком рано. Когда вы впервые направляете агента на новый тип задачи, спуститесь до «Предлагать» или «Черновик», даже если подозреваете, что он справится с большим.

Устанавливайте ступень по худшему случаю, а не по среднему. Если задача обратима в 95% случаев, но остальные 5% затрагивают боевые данные, ступень вы устанавливаете для этих 5%. Радиус поражения худшего правдоподобного действия — это ваш потолок.

Поднимайтесь по задачам, а не по инструментам. Один и тот же ИИ может быть на ступени 4 для «отформатируй мой код» и на ступени 1 для «удали записи из базы данных» в одной и той же сессии. Лестница — про действие, а не про глобальную настройку доверия, которую вы переключаете один раз.

Привязка к Claude Code

Claude Code — наглядное место, чтобы увидеть лестницу в действии, потому что его система разрешений — это по сути набор регуляторов для выбора вашей ступени:

  • Ступени 1–2 — это осторожная позиция по умолчанию: Claude предлагает правки и команды, а вы одобряете каждую. Вы проверяете каждый дифф, прежде чем он закрепится.
  • Ступень 3 — разрешение конкретных обратимых вызовов инструментов — правки файлов внутри git-репозитория, которые вы можете откатить через git restore, запуски в одноразовой ветке, — при этом по-прежнему шлюзуя всё разрушительное.
  • Ступень 4 — внесение категорий безопасных действий в белый список, чтобы Claude выполнял их без запроса, а вы потом читаете транскрипт и диффы.
  • Ступень 5 — более полная автономия для узкого, проверенного цикла — и она безопасна только тогда, когда на месте настоящие ограждения: ограниченные по области разрешения, ограниченная рабочая директория и возможность его остановить.

Механизм, позволяющий подниматься безопасно, — это ваш CLAUDE.md. Этот файл — место, где вы записываете ограждения: что всегда разрешено, чего никогда не должно происходить, какие пути под запретом, когда остановиться и спросить. Ограждения, которые вы держите только в голове, агента не ограничивают — а ограждения, записанные в CLAUDE.md, ограничивают. Если вы не уверены, как их сформулировать, Генератор CLAUDE.md даст вам структурированную отправную точку.

Честный вывод: не предоставляйте автономию потому, что ИИ кажется способным. Предоставляйте её потому, что действие обратимо, радиус поражения мал, а ограждения записаны. А затем поднимайтесь по одной ступени за раз, по мере поступления доказательств.

Связанные материалы