본문으로 건너뛰기
중급

신뢰의 사다리

"AI에게 어디까지 그냥 하게 둬도 될까?"는 거의 모든 에이전트 결정 뒤에 있는 질문입니다 — Claude Code 권한, 자동 승인 설정, 스크립트를 무인으로 돌릴지 여부. 사람들은 이것을 단일한 켜짐/꺼짐 스위치로 답하는 경향이 있습니다. 모든 것을 일일이 지켜보거나, 아니면 풀어주거나.

대신 AILmanac가 쓰는 렌즈가 여기 있습니다:

자율성은 스위치가 아니라 사다리다. 한 번에 한 칸씩 올라가며, 당신이 서 있는 칸은 모델을 얼마나 신뢰하는지가 아니라 실수가 얼마나 나쁜지에 따라 정해져야 한다.

핵심 통찰은 적절한 자율성의 정도가 AI가 얼마나 "똑똑한"지와는 거의 상관이 없다는 것입니다. 그것은 폭발 반경(잘못된 행동이 얼마나 큰 피해를 입히는가)과 되돌릴 수 있음(얼마나 쉽게 되돌릴 수 있는가)에 관한 것입니다. 되돌릴 수 없는 일을 감독 없이 하는 뛰어난 모델은, 되돌릴 수 있는 일을 하는 평범한 모델보다 더 나쁜 설정입니다.

다섯 칸

우리가 유용하다고 느끼는 모델은 자율성이 가장 적은 것에서 가장 많은 것까지 다섯 개의 구별되는 칸으로 생각하는 것입니다:

AI가 하는 일언제 적절한가무엇이 안전하게 만드는가
1. 제안만자신이 하려는 일을 알려주되, 아무 행동도 취하지 않는다위험이 크거나 되돌릴 수 없는 작업; 아직 신뢰하지 못하는 영역; 무엇을 잘하는지 아직 배우는 중실행자는 당신이다. 당신이 직접 손으로 하지 않으면 아무 일도 일어나지 않는다.
2. 검토용 초안실제 산출물(코드, 이메일, 쿼리)을 만들지만 적용하기 전에 멈춘다산출물이 구체적이고, 당신이 직접 쓰는 것보다 눈으로 훑어보는 게 더 빠를 때무언가 효력을 발휘하기 전에 진짜 사람이 읽었다. 대충 넘기는 게 아니라 실제로 들여다보는 diff.
3. 되돌릴 수 있는 일에 대해 실행직접 실행하되, 위험이 낮고 쉽게 되돌릴 수 있는 행동에 한해서만행동에 깔끔한 되돌리기가 있을 때: 버전 관리 내의 수정, 임시 브랜치로의 쓰기, 단일 명령으로 되돌릴 수 있는 무엇이든되돌릴 수 있음이 가드레일이다. 실수의 비용은 "법무팀에 설명하기"가 아니라 "되돌리기"다.
4. 실행 후 보고자율적으로 일을 하고, 그런 다음 자신이 한 일을 정확히 보여준다반복적이고 범위가 잘 정의된 작업으로, 사전에 차단하는 것보다 사후에 검토하는 게 더 저렴할 때당신이 실제로 사후에 읽는, 완전하고 정직한 감사 추적 — 로그, diff, 요약.
5. 가드레일 안에서 자율 실행단단한 한계 안에서 무인으로 돌아간다여러 번 성공하는 것을 지켜본, 좁고 잘 이해된 루프가드레일이 감독을 한다. AI가 넘을 수 없는 단단한 경계, 그리고 킬 스위치.

사다리를 쓰는 법

세 가지 규칙이 이것을 실용적으로 만듭니다:

필요해 보이는 것보다 한 칸 낮게 시작하라. 무언가가 작동하는 것을 지켜본 뒤 한 칸 올라가는 것은 싸지만, 너무 빨리 너무 많이 부여한 뒤 뒷정리하는 것은 비쌉니다. 새로운 종류의 작업에 처음 에이전트를 겨눌 때는, 더 잘할 수 있을 것 같더라도 제안이나 초안으로 내려가세요.

평균이 아니라 최악의 경우에 따라 칸을 정하라. 어떤 작업이 95%는 되돌릴 수 있지만 나머지 5%가 프로덕션 데이터를 건드린다면, 그 5%에 맞춰 칸을 정합니다. 일어날 법한 최악의 행동이 가진 폭발 반경이 당신의 천장입니다.

도구 단위가 아니라 작업 단위로 올라가라. 같은 AI가 같은 세션에서 "내 코드 포매팅"에는 4칸에, "데이터베이스에서 레코드 삭제"에는 1칸에 있을 수 있습니다. 사다리는 한 번 켜고 끄는 전역 신뢰 설정이 아니라 행동에 관한 것입니다.

Claude Code에 대응시키기

Claude Code는 사다리가 작동하는 모습을 보기에 깔끔한 곳입니다. 그 권한 시스템은 본질적으로 당신의 칸을 고르는 다이얼 세트이기 때문입니다:

  • 1–2칸은 기본의 신중한 자세입니다. Claude가 수정과 명령을 제안하면 당신이 각각을 승인합니다. 모든 diff가 반영되기 전에 검토하는 것이죠.
  • 3칸은 특정한 되돌릴 수 있는 도구 호출을 허용하는 것입니다 — git restore로 되돌릴 수 있는 git 저장소 안의 파일 수정, 일회용 브랜치에서의 실행 — 동시에 파괴적인 것은 무엇이든 여전히 차단합니다.
  • 4칸은 안전한 행동 범주를 허용 목록에 올려 Claude가 그것들에 대해 묻지 않고 진행하게 하고, 그 후에 트랜스크립트와 diff를 읽는 것입니다.
  • 5칸은 좁고 입증된 루프에 대한 더 완전한 자율성입니다 — 그리고 이것은 진짜 가드레일이 갖춰져 있을 때에만 안전합니다: 범위가 한정된 권한, 제약된 작업 디렉터리, 그리고 그것을 멈출 수 있는 능력.

당신이 안전하게 올라가게 해주는 메커니즘은 당신의 **CLAUDE.md**입니다. 그 파일은 가드레일을 적어두는 곳입니다. 무엇이 항상 허용되는지, 무엇이 절대 일어나서는 안 되는지, 어떤 경로가 출입 금지인지, 언제 멈추고 물어야 하는지. 머릿속에만 있는 가드레일은 에이전트를 제약하지 못합니다 — CLAUDE.md에 적힌 가드레일은 제약합니다. 어떻게 표현해야 할지 모르겠다면, CLAUDE.md 생성기가 구조화된 출발점을 줍니다.

정직한 요약: AI가 능력 있어 보인다는 이유로 자율성을 부여하지 마라. 행동이 되돌릴 수 있고, 폭발 반경이 작고, 가드레일이 적혀 있기 때문에 부여하라. 그런 다음 증거가 들어오는 대로 한 번에 한 칸씩 올라가세요.

관련 항목