メインコンテンツまでスキップ

AI品質の評価（評価）

上級

AIの上に何かを出荷するなら、**評価（eval）**こそが、それが機能していることを知る方法であり、ある変更が改善だったのか改悪だったのかを知る方法です。評価がなければ手探りで飛んでいるようなものです。あるケースを助けるプロンプトの微調整が、別の10ケースを密かに壊しかねません。

実用最小限の評価

始めるのにフレームワークは要りません。

ゴールデンセットを集める。 20〜100件の実際の入力と、その正しいもしくは許容できる出力（または明確な基準）。簡単なケース、トリッキーなケース、過去に痛い目を見たエッジケースを網羅しましょう。
「良い」とは何かを定義する。 タスクごとに、完全一致、重要な事実を含む、有効なJSONスキーマ、捏造された数値がない、トーンなど。
現在の構成をそのセットに対して実行し、採点する。
1つだけ変える（プロンプト、モデル、検索）、再実行して比較する。スコアが改善したときだけ変更を残します。

メトリクスの選び方

可能なら決定論的なチェックを。 スキーマは有効か？正しい値を含むか？コードはテストを通過するか？これらは安価で信頼できます。
ファジーな品質（有用性、トーン）には**LLM-as-judge（審判役のLLM）**を。モデルにルーブリックに対して出力を採点させます。便利ですが、較正しましょう — 審判には偏り（長さ、位置）があります。サンプルで人間の評価に対して審判を検証してください。
最も重要度の高い部分には人間によるレビューを。

いつ実行するか

プロンプトやモデルを変更する前後に。
モデル移行のとき — 新しいモデルは挙動を変えうる（エラーと移行）。
本番システムではCI内で、ゲートとして。

:::tip 段階を分ける RAGやエージェントでは、最終的な回答だけでなく各段階を評価しましょう（検索は正しい文書を見つけたか？ツールは正しく呼ばれたか？）。失敗箇所を特定しやすくなります。 :::

次に読む

実用最小限の評価
メトリクスの選び方
いつ実行するか
次に読む