Arbitrages coût et latence
Qualité, coût et vitesse tirent à hue et à dia. Vous ne pouvez pas maximiser les trois à la fois — mais vous pouvez dépenser chacun là où cela compte et économiser partout ailleurs.
Le triangle
Un modèle plus gros est plus intelligent mais plus lent et plus cher ; un plus petit est rapide et bon marché mais moins capable. La bonne ingénierie consiste à diriger chaque tâche vers le bon point de ce triangle.
Les plus grands leviers (à peu près dans l'ordre)
- Dimensionnez le modèle au plus juste. Ne faites pas tourner Opus pour de la classification. Commencez avec Sonnet, descendez à Haiku pour les étapes simples/à fort volume, réservez Opus aux parties difficiles — Choisir un modèle.
- Paliers de modèles / cascades. Utilisez d'abord un modèle bon marché ; escaladez vers un plus puissant seulement quand c'est nécessaire (par exemple pour les cas à faible confiance).
- Mise en cache des prompts. Réutilisez un préfixe de prompt stable d'un appel à l'autre — de grosses économies pour les prompts système répétés, le contexte RAG ou les catalogues d'outils d'agents.
- Réduisez les jetons d'entrée. N'envoyez que l'essentiel ; le RAG vaut mieux que d'entasser toute la base de connaissances. Des entrées plus courtes = moins cher et souvent meilleur.
- Plafonnez la sortie avec un
max_tokensraisonnable et des instructions de format strictes. - Traitez par lots le travail hors ligne lorsque la latence n'a pas d'importance.
Gains spécifiques à la latence
- Diffusez en continu les réponses pour que les utilisateurs voient la sortie immédiatement — énorme pour la vitesse perçue, même si le temps total est inchangé (Streaming).
- Parallélisez les sous-appels indépendants.
- Mettez en cache le travail répété ; précalculez quand vous le pouvez.
- Choisissez un modèle plus petit pour le chemin interactif ; faites le gros du travail de façon asynchrone.
N'optimisez pas à l'aveugle
Mesurez d'abord : où partent réellement les jetons et les secondes ? Optimisez ensuite le poste le plus important. Et revérifiez la qualité avec des évaluations après chaque réduction de coût — une configuration moins chère qui se trompe n'est pas moins chère.