Streaming e conversazioni multi-turno

Intermedio

Due realtà pratiche del costruire esperienze tipo chat sull'API: esegui lo streaming così gli utenti vedono subito l'output, e gestisci tu stesso la cronologia perché l'API è stateless.

Streaming

Senza streaming, l'utente attende l'intera risposta. Con lo streaming, i token arrivano man mano che vengono generati — una velocità percepita molto migliore. Usa l'helper di streaming dell'SDK:

Python
TypeScript

with client.messages.stream(
    model="claude-sonnet-4-6", max_tokens=1024,
    messages=[{"role": "user", "content": "Explain RAG in two sentences."}],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

const stream = client.messages.stream({
  model: "claude-sonnet-4-6", max_tokens: 1024,
  messages: [{ role: "user", content: "Explain RAG in two sentences." }],
});
for await (const event of stream) {
  if (event.type === "content_block_delta") process.stdout.write(event.delta.text ?? "");
}

Multi-turno: la cronologia la tieni tu

L'API non ha memoria tra le chiamate (perché). Per continuare una conversazione, rinvia ogni volta l'intero scambio precedente:

messages = [{"role": "user", "content": "Hi, I'm planning a trip."}]
# ... get assistant reply, then append both turns:
messages.append({"role": "assistant", "content": assistant_text})
messages.append({"role": "user", "content": "Make it 3 days."})
# send the full `messages` list again

Le conversazioni lunghe riempiono la finestra

Man mano che la cronologia cresce, consuma la finestra di contesto e il costo aumenta. Strategie:

Riassumi/compatta i turni più vecchi in un breve riepilogo che porti avanti.
Sfoltisci i turni precedenti non rilevanti.
Abbina al prompt caching per evitare di ripagare un prefisso stabile.

Streaming​

Multi-turno: la cronologia la tieni tu​

Le conversazioni lunghe riempiono la finestra​

Avanti​

Streaming

Multi-turno: la cronologia la tieni tu

Le conversazioni lunghe riempiono la finestra

Avanti