Оценка качества ИИ (Evals)

Продвинутый

Если вы выпускаете что-либо построенное на ИИ, оценки (evals) — это то, как вы узнаёте, что оно работает, и как вы узнаёте, что изменение сделало его лучше, а не хуже. Без них вы летите вслепую: правка промпта, которая помогает одному случаю, может незаметно сломать десять других.

Минимально жизнеспособная оценка

Чтобы начать, фреймворк не нужен:

Соберите эталонный набор. 20–100 реальных входных данных с правильными или приемлемыми выходными данными (или с чёткими критериями). Охватите лёгкие случаи, хитрые и крайние случаи, которые вас уже кусали.
Определите, что значит «хорошо» для каждой задачи — точное совпадение, содержит ключевые факты, валидная JSON-схема, нет выдуманных чисел, тон и т. д.
Прогоните и оцените вашу текущую конфигурацию по этому набору.
Измените одну вещь (промпт, модель, извлечение), прогоните заново, сравните. Оставляйте изменение только если оценка улучшается.

Выбор метрик

Детерминированные проверки где возможно: схема валидна? содержит правильное значение? код проходит тесты? Они дёшевы и заслуживают доверия.
LLM в роли судьи для размытого качества (полезность, тон): пусть модель оценивает результаты по рубрике. Полезно, но калибруйте — у судей есть искажения (длина, позиция). Сверьте судью с человеческими оценками на выборке.
Человеческая проверка для среза с самыми высокими ставками.

Когда их запускать

До/после любого изменения промпта или модели.
При миграции модели — новая модель может изменить поведение (Ошибки и миграция).
В CI для продакшен-систем, в качестве шлюза.

:::tip Разделяйте этапы Для RAG и агентов оценивайте каждый этап (нашло ли извлечение нужный документ? был ли инструмент вызван правильно?) — а не только финальный ответ. Это локализует сбои. :::

Минимально жизнеспособная оценка​

Выбор метрик​

Когда их запускать​

Дальше​

Минимально жизнеспособная оценка

Выбор метрик

Когда их запускать

Дальше