Sua Primeira Chamada de API em Produção (Consciente de Custo)

Intermediário

Uma chamada de API de brinquedo tem uma linha. Uma chamada de produção trata erros, faz streaming da saída, monitora o custo e mantém os segredos seguros. Vamos construir isso, passo a passo.

Passo 1 — Segredos & modelo a partir da configuração

export ANTHROPIC_API_KEY="sk-ant-..."   # never in source control

Mantenha o ID do modelo na configuração, não espalhado em literais, para que a migração seja trivial (por quê). Escolha-o deliberadamente — Escolhendo um Modelo.

Passo 2 — Uma chamada resiliente, com streaming

Python
TypeScript

import os, time, random, anthropic
client = anthropic.Anthropic()
MODEL = os.environ.get("CLAUDE_MODEL", "claude-sonnet-4-6")

def ask_stream(prompt, system=None, max_tokens=1024):
    for attempt in range(5):
        try:
            with client.messages.stream(
                model=MODEL, max_tokens=max_tokens,
                system=system or anthropic.NOT_GIVEN,
                messages=[{"role": "user", "content": prompt}],
            ) as stream:
                for text in stream.text_stream:
                    print(text, end="", flush=True)
                final = stream.get_final_message()
            print()
            usage = final.usage
            print(f"\n[tokens in/out: {usage.input_tokens}/{usage.output_tokens}]")
            return final
        except (anthropic.RateLimitError, anthropic.APIStatusError):
            if attempt == 4: raise
            time.sleep(min(2 ** attempt + random.random(), 30))

import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();
const MODEL = process.env.CLAUDE_MODEL ?? "claude-sonnet-4-6";

export async function askStream(prompt: string, system?: string, maxTokens = 1024) {
  for (let attempt = 0; attempt < 5; attempt++) {
    try {
      const stream = client.messages.stream({ model: MODEL, max_tokens: maxTokens, system,
        messages: [{ role: "user", content: prompt }] });
      for await (const e of stream)
        if (e.type === "content_block_delta") process.stdout.write(e.delta.text ?? "");
      const final = await stream.finalMessage();
      console.error(`\n[tokens in/out: ${final.usage.input_tokens}/${final.usage.output_tokens}]`);
      return final;
    } catch (e: any) {
      if (attempt === 4 || ![429, 500, 529].includes(e?.status)) throw e;
      await new Promise(r => setTimeout(r, Math.min(2 ** attempt * 1000, 30000)));
    }
  }
}

Passo 3 — Atenção ao custo

Registre o uso de tokens (acima) para que você possa ver quanto custa cada chamada.
Dimensione corretamente max_tokens e o modelo; limite a entrada com prompts focados.
Para prefixos estáveis e repetidos, adicione cache de prompt.
Veja Tokens & Preços e Custo & Latência.

Passo 4 — Trate os caminhos infelizes

Repita erros transitórios (429/5xx) com backoff (acima); não repita erros 400.
Trate recusas com elegância.
Defina um timeout e um orçamento de custo/iterações para qualquer coisa agêntica.

Verifique

Execute-a: você deve ver a saída em streaming, uma linha de uso de tokens e um comportamento elegante se forçar um erro (por exemplo, uma chave inválida → mensagem limpa, não uma falha).

Passo 1 — Segredos & modelo a partir da configuração​

Passo 2 — Uma chamada resiliente, com streaming​

Passo 3 — Atenção ao custo​

Passo 4 — Trate os caminhos infelizes​

Verifique​

Próximos passos​

Passo 1 — Segredos & modelo a partir da configuração

Passo 2 — Uma chamada resiliente, com streaming

Passo 3 — Atenção ao custo

Passo 4 — Trate os caminhos infelizes

Verifique

Próximos passos