Средний

Лестница доверия

«Насколько мне стоит позволить ИИ просто делать?» — это вопрос, стоящий почти за каждым решением об агентах: разрешения Claude Code, настройки автоодобрения, стоит ли давать скрипту работать без присмотра. Люди склонны отвечать на него как на единственный переключатель «вкл/выкл»: либо вы нянчитесь со всем, либо отпускаете на волю.

Вот линза, которую AILmanac использует вместо этого:

Автономия — это не переключатель, это лестница. Вы поднимаетесь по ней по одной ступени за раз, и ступень, на которой вы стоите, должна определяться тем, насколько плоха была бы ошибка, — а не тем, насколько вы доверяете модели.

Ключевая мысль в том, что правильный уровень автономии почти не связан с тем, насколько «умён» ИИ. Дело в радиусе поражения (сколько вреда наносит ошибочное действие) и обратимости (насколько легко его отменить). Блестящая модель, делающая необратимое без присмотра, — это худшая конфигурация, чем посредственная модель, делающая обратимое.

Пять ступеней

Модель, которую мы находим полезной, — мыслить пятью отдельными ступенями, от наименьшей автономии к наибольшей:

Ступень	Что делает ИИ	Когда это уместно	Что делает это безопасным
1. Только предлагать	Сообщает, что он сделал бы; никаких действий не предпринимает	Работа с высокими ставками или необратимая; область, в которой вы ему пока не доверяете; вы ещё изучаете, в чём он хорош	Исполнитель — вы. Ничего не происходит без того, чтобы вы сделали это вручную.
2. Черновик на проверку	Производит сам артефакт (код, письмо, запрос), но останавливается перед его применением	Результат конкретен, и вы можете окинуть его взглядом быстрее, чем написали бы сами	Настоящий человек прочитал, прежде чем что-либо вступило в силу. Дифф, в который вы действительно вглядываетесь, а не пробегаете глазами.
3. Действовать с обратимым	Выполняет напрямую, но только малорисковые, легко отменяемые действия	У действия есть чистая отмена: правки под контролем версий, записи в черновую ветку, всё, что откатывается одной командой	Обратимость — это ограждение. Цена ошибки — «отмени её», а не «объясни её юристам».
4. Действовать и отчитываться	Делает работу автономно, затем показывает вам в точности, что сделал	Повторяющиеся, хорошо очерченные задачи, где проверять после дешевле, чем шлюзовать до	Полный, честный аудиторский след — лог, дифф, сводка, — который вы действительно читаете после.
5. Действовать автономно в пределах ограждений	Работает без присмотра внутри жёстких границ	Узкие, хорошо понятные циклы, успех которых вы наблюдали много раз	Надзор осуществляют ограждения. Жёсткие границы, которые ИИ не может пересечь, плюс аварийный выключатель.

Как пользоваться лестницей

Три правила делают это применимым на практике:

Начинайте на одну ступень ниже, чем кажется необходимым. Подняться на ступень дёшево, когда вы уже видели, как что-то работает; дорого разгребать последствия после того, как предоставил слишком много и слишком рано. Когда вы впервые направляете агента на новый тип задачи, спуститесь до «Предлагать» или «Черновик», даже если подозреваете, что он справится с большим.

Устанавливайте ступень по худшему случаю, а не по среднему. Если задача обратима в 95% случаев, но остальные 5% затрагивают боевые данные, ступень вы устанавливаете для этих 5%. Радиус поражения худшего правдоподобного действия — это ваш потолок.

Поднимайтесь по задачам, а не по инструментам. Один и тот же ИИ может быть на ступени 4 для «отформатируй мой код» и на ступени 1 для «удали записи из базы данных» в одной и той же сессии. Лестница — про действие, а не про глобальную настройку доверия, которую вы переключаете один раз.

Привязка к Claude Code

Claude Code — наглядное место, чтобы увидеть лестницу в действии, потому что его система разрешений — это по сути набор регуляторов для выбора вашей ступени:

Ступени 1–2 — это осторожная позиция по умолчанию: Claude предлагает правки и команды, а вы одобряете каждую. Вы проверяете каждый дифф, прежде чем он закрепится.
Ступень 3 — разрешение конкретных обратимых вызовов инструментов — правки файлов внутри git-репозитория, которые вы можете откатить через git restore, запуски в одноразовой ветке, — при этом по-прежнему шлюзуя всё разрушительное.
Ступень 4 — внесение категорий безопасных действий в белый список, чтобы Claude выполнял их без запроса, а вы потом читаете транскрипт и диффы.
Ступень 5 — более полная автономия для узкого, проверенного цикла — и она безопасна только тогда, когда на месте настоящие ограждения: ограниченные по области разрешения, ограниченная рабочая директория и возможность его остановить.

Механизм, позволяющий подниматься безопасно, — это ваш CLAUDE.md. Этот файл — место, где вы записываете ограждения: что всегда разрешено, чего никогда не должно происходить, какие пути под запретом, когда остановиться и спросить. Ограждения, которые вы держите только в голове, агента не ограничивают — а ограждения, записанные в CLAUDE.md, ограничивают. Если вы не уверены, как их сформулировать, Генератор CLAUDE.md даст вам структурированную отправную точку.

Честный вывод: не предоставляйте автономию потому, что ИИ кажется способным. Предоставляйте её потому, что действие обратимо, радиус поражения мал, а ограждения записаны. А затем поднимайтесь по одной ступени за раз, по мере поступления доказательств.

Пять ступеней​

Как пользоваться лестницей​

Привязка к Claude Code​

Связанные материалы​

Пять ступеней

Как пользоваться лестницей

Привязка к Claude Code

Связанные материалы