Лестница доверия
«Насколько мне стоит позволить ИИ просто делать?» — это вопрос, стоящий почти за каждым решением об агентах: разрешения Claude Code, настройки автоодобрения, стоит ли давать скрипту работать без присмотра. Люди склонны отвечать на него как на единственный переключатель «вкл/выкл»: либо вы нянчитесь со всем, либо отпускаете на волю.
Вот линза, которую AILmanac использует вместо этого:
Автономия — это не переключатель, это лестница. Вы поднимаетесь по ней по одной ступени за раз, и ступень, на которой вы стоите, должна определяться тем, насколько плоха была бы ошибка, — а не тем, насколько вы доверяете модели.
Ключевая мысль в том, что правильный уровень автономии почти не связан с тем, насколько «умён» ИИ. Дело в радиусе поражения (сколько вреда наносит ошибочное действие) и обратимости (насколько легко его отменить). Блестящая модель, делающая необратимое без присмотра, — это худшая конфигурация, чем посредственная модель, делающая обратимое.
Пять ступеней
Модель, которую мы находим полезной, — мыслить пятью отдельными ступенями, от наименьшей автономии к наибольшей:
| Ступень | Что делает ИИ | Когда это уместно | Что делает это безопасным |
|---|---|---|---|
| 1. Только предлагать | Сообщает, что он сделал бы; никаких действий не предпринимает | Работа с высокими ставками или необратимая; область, в которой вы ему пока не доверяете; вы ещё изучаете, в чём он хорош | Исполнитель — вы. Ничего не происходит без того, чтобы вы сделали это вручную. |
| 2. Черновик на проверку | Производит сам артефакт (код, письмо, запрос), но останавливается перед его применением | Результат конкретен, и вы можете окинуть его взглядом быстрее, чем написали бы сами | Настоящий человек прочитал, прежде чем что-либо вступило в силу. Дифф, в который вы действительно вглядываетесь, а не пробегаете глазами. |
| 3. Действовать с обратимым | Выполняет напрямую, но только малорисковые, легко отменяемые действия | У действия есть чистая отмена: правки под контролем версий, записи в черновую ветку, всё, что откатывается одной командой | Обратимость — это ограждение. Цена ошибки — «отмени её», а не «объясни её юристам». |
| 4. Действовать и отчитываться | Делает работу автономно, затем показывает вам в точности, что сделал | Повторяющиеся, хорошо очерченные задачи, где проверять после дешевле, чем шлюзовать до | Полный, честный аудиторский след — лог, дифф, сводка, — который вы действительно читаете после. |
| 5. Действовать автономно в пределах ограждений | Работает без присмотра внутри жёстких границ | Узкие, хорошо понятные циклы, успех которых вы наблюдали много раз | Надзор осуществляют ограждения. Жёсткие границы, которые ИИ не может пересечь, плюс аварийный выключатель. |
Как пользоваться лестницей
Три правила делают это применимым на практике:
Начинайте на одну ступень ниже, чем кажется необходимым. Подняться на ступень дёшево, когда вы уже видели, как что-то работает; дорого разгребать последствия после того, как предоставил слишком много и слишком рано. Когда вы впервые направляете агента на новый тип задачи, спуститесь до «Предлагать» или «Черновик», даже если подозреваете, что он справится с большим.
Устанавливайте ступень по худшему случаю, а не по среднему. Если задача обратима в 95% случаев, но остальные 5% затрагивают боевые данные, ступень вы устанавливаете для этих 5%. Радиус поражения худшего правдоподобного действия — это ваш потолок.
Поднимайтесь по задачам, а не по инструментам. Один и тот же ИИ может быть на ступени 4 для «отформатируй мой код» и на ступени 1 для «удали записи из базы данных» в одной и той же сессии. Лестница — про действие, а не про глобальную настройку доверия, которую вы переключаете один раз.
Привязка к Claude Code
Claude Code — наглядное место, чтобы увидеть лестницу в действии, потому что его система разрешений — это по сути набор регуляторов для выбора вашей ступени:
- Ступени 1–2 — это осторожная позиция по умолчанию: Claude предлагает правки и команды, а вы одобряете каждую. Вы проверяете каждый дифф, прежде чем он закрепится.
- Ступень 3 — разрешение конкретных обратимых вызовов инструментов — правки файлов внутри git-репозитория, которые вы можете откатить через
git restore, запуски в одноразовой ветке, — при этом по-прежнему шлюзуя всё разрушительное. - Ступень 4 — внесение категорий безопасных действий в белый список, чтобы Claude выполнял их без запроса, а вы потом читаете транскрипт и диффы.
- Ступень 5 — более полная автономия для узкого, проверенного цикла — и она безопасна только тогда, когда на месте настоящие ограждения: ограниченные по области разрешения, ограниченная рабочая директория и возможность его остановить.
Механизм, позволяющий подниматься безопасно, — это ваш CLAUDE.md. Этот файл — место, где вы записываете ограждения: что всегда разрешено, чего никогда не должно происходить, какие пути под запретом, когда остановиться и спросить. Ограждения, которые вы держите только в голове, агента не ограничивают — а ограждения, записанные в CLAUDE.md, ограничивают. Если вы не уверены, как их сформулировать, Генератор CLAUDE.md даст вам структурированную отправную точку.
Честный вывод: не предоставляйте автономию потому, что ИИ кажется способным. Предоставляйте её потому, что действие обратимо, радиус поражения мал, а ограждения записаны. А затем поднимайтесь по одной ступени за раз, по мере поступления доказательств.