신뢰의 사다리
"AI에게 어디까지 그냥 하게 둬도 될까?"는 거의 모든 에이전트 결정 뒤에 있는 질문입니다 — Claude Code 권한, 자동 승인 설정, 스크립트를 무인으로 돌릴지 여부. 사람들은 이것을 단일한 켜짐/꺼짐 스위치로 답하는 경향이 있습니다. 모든 것을 일일이 지켜보거나, 아니면 풀어주거나.
대신 AILmanac가 쓰는 렌즈가 여기 있습니다:
자율성은 스위치가 아니라 사다리다. 한 번에 한 칸씩 올라가며, 당신이 서 있는 칸은 모델을 얼마나 신뢰하는지가 아니라 실수가 얼마나 나쁜지에 따라 정해져야 한다.
핵심 통찰은 적절한 자율성의 정도가 AI가 얼마나 "똑똑한"지와는 거의 상관이 없다는 것입니다. 그것은 폭발 반경(잘못된 행동이 얼마나 큰 피해를 입히는가)과 되돌릴 수 있음(얼마나 쉽게 되돌릴 수 있는가)에 관한 것입니다. 되돌릴 수 없는 일을 감독 없이 하는 뛰어난 모델은, 되돌릴 수 있는 일을 하는 평범한 모델보다 더 나쁜 설정입니다.
다섯 칸
우리가 유용하다고 느끼는 모델은 자율성이 가장 적은 것에서 가장 많은 것까지 다섯 개의 구별되는 칸으로 생각하는 것입니다:
| 칸 | AI가 하는 일 | 언제 적절한가 | 무엇이 안전하게 만드는가 |
|---|---|---|---|
| 1. 제안만 | 자신이 하려는 일을 알려주되, 아무 행동도 취하지 않는다 | 위험이 크거나 되돌릴 수 없는 작업; 아직 신뢰하지 못하는 영역; 무엇을 잘하는지 아직 배우는 중 | 실행자는 당신이다. 당신이 직접 손으로 하지 않으면 아무 일도 일어나지 않는다. |
| 2. 검토용 초안 | 실제 산출물(코드, 이메일, 쿼리)을 만들지만 적용하기 전에 멈춘다 | 산출물이 구체적이고, 당신이 직접 쓰는 것보다 눈으로 훑어보는 게 더 빠를 때 | 무언가 효력을 발휘하기 전에 진짜 사람이 읽었다. 대충 넘기는 게 아니라 실제로 들여다보는 diff. |
| 3. 되돌릴 수 있는 일에 대해 실행 | 직접 실행하되, 위험이 낮고 쉽게 되돌릴 수 있는 행동에 한해서만 | 행동에 깔끔한 되돌리기가 있을 때: 버전 관리 내의 수정, 임시 브랜치로의 쓰기, 단일 명령으로 되돌릴 수 있는 무엇이든 | 되돌릴 수 있음이 가드레일이다. 실수의 비용은 "법무팀에 설명하기"가 아니라 "되돌리기"다. |
| 4. 실행 후 보고 | 자율적으로 일을 하고, 그런 다음 자신이 한 일을 정확히 보여준다 | 반복적이고 범위가 잘 정의된 작업으로, 사전에 차단하는 것보다 사후에 검토하는 게 더 저렴할 때 | 당신이 실제로 사후에 읽는, 완전하고 정직한 감사 추적 — 로그, diff, 요약. |
| 5. 가드레일 안에서 자율 실행 | 단단한 한계 안에서 무인으로 돌아간다 | 여러 번 성공하는 것을 지켜본, 좁고 잘 이해된 루프 | 가드레일이 감독을 한다. AI가 넘을 수 없는 단단한 경계, 그리고 킬 스위치. |
사다리를 쓰는 법
세 가지 규칙이 이것을 실용적으로 만듭니다:
필요해 보이는 것보다 한 칸 낮게 시작하라. 무언가가 작동하는 것을 지켜본 뒤 한 칸 올라가는 것은 싸지만, 너무 빨리 너무 많이 부여한 뒤 뒷정리하는 것은 비쌉니다. 새로운 종류의 작업에 처음 에이전트를 겨눌 때는, 더 잘할 수 있을 것 같더라도 제안이나 초안으로 내려가세요.
평균이 아니라 최악의 경우에 따라 칸을 정하라. 어떤 작업이 95%는 되돌릴 수 있지만 나머지 5%가 프로덕션 데이터를 건드린다면, 그 5%에 맞춰 칸을 정합니다. 일어날 법한 최악의 행동이 가진 폭발 반경이 당신의 천장입니다.
도구 단위가 아니라 작업 단위로 올라가라. 같은 AI가 같은 세션에서 "내 코드 포매팅"에는 4칸에, "데이터베이스에서 레코드 삭제"에는 1칸에 있을 수 있습니다. 사다리는 한 번 켜고 끄는 전역 신뢰 설정이 아니라 행동에 관한 것입니다.
Claude Code에 대응시키기
Claude Code는 사다리가 작동하는 모습을 보기에 깔끔한 곳입니다. 그 권한 시스템은 본질적으로 당신의 칸을 고르는 다이얼 세트이기 때문입니다:
- 1–2칸은 기본의 신중한 자세입니다. Claude가 수정과 명령을 제안하면 당신이 각각을 승인합니다. 모든 diff가 반영되기 전에 검토하는 것이죠.
- 3칸은 특정한 되돌릴 수 있는 도구 호출을 허용하는 것입니다 —
git restore로 되돌릴 수 있는 git 저장소 안의 파일 수정, 일회용 브랜치에서의 실행 — 동시에 파괴적인 것은 무엇이든 여전히 차단합니다. - 4칸은 안전한 행동 범주를 허용 목록에 올려 Claude가 그것들에 대해 묻지 않고 진행하게 하고, 그 후에 트랜스크립트와 diff를 읽는 것입니다.
- 5칸은 좁고 입증된 루프에 대한 더 완전한 자율성입니다 — 그리고 이것은 진짜 가드레일이 갖춰져 있을 때에만 안전합니다: 범위가 한정된 권한, 제약된 작업 디렉터리, 그리고 그것을 멈출 수 있는 능력.
당신이 안전하게 올라가게 해주는 메커니즘은 당신의 **CLAUDE.md**입니다. 그 파일은 가드레일을 적어두는 곳입니다. 무엇이 항상 허용되는지, 무엇이 절대 일어나서는 안 되는지, 어떤 경로가 출입 금지인지, 언제 멈추고 물어야 하는지. 머릿속에만 있는 가드레일은 에이전트를 제약하지 못합니다 — CLAUDE.md에 적힌 가드레일은 제약합니다. 어떻게 표현해야 할지 모르겠다면, CLAUDE.md 생성기가 구조화된 출발점을 줍니다.
정직한 요약: AI가 능력 있어 보인다는 이유로 자율성을 부여하지 마라. 행동이 되돌릴 수 있고, 폭발 반경이 작고, 가드레일이 적혀 있기 때문에 부여하라. 그런 다음 증거가 들어오는 대로 한 번에 한 칸씩 올라가세요.