LLM evaluation: как тестировать prompts

Нестабильность результатов от одних и тех же prompts — частая проблема при развитии продуктов на базе больших языковых моделей в 2025–2026 годах. Подготовил практическое руководство с проверяемыми шагами, кодом и метриками, чтобы вы могли настроить reproducible LLM evaluation тесты и уложиться в заданный бюджет.

Проблема нестабильных prompts

Нестабильность проявляется в трёх ключевых симптомах: 1) ответы меняются по тону и детализации на тех же входных данных; 2) переход метрик качества (BLEU, ROUGE, accuracy для classification prompt) вверх-вниз после изменений окружения; 3) рост внутренних обращений в продуктовую поддержку из‑за неверных ответов. Эти симптомы часто возникают в 2025–2026 при использовании обновляемых моделей (например, GPT-4o, Llama 3), изменениях system instructions и при динамическом контексте.

Причины можно разделить на технические (версия модели, temperature, top_p), инфраструктурные (различия в токенизаторах, pre/post-processing), и человеческие (изменение prompt-а без тестов). В моём опыте на проекте с 12 инженерами и 4 prompt-специалистами стабильность выросла после внедрения тестовой сети, описанной далее: за 6 недель число регрессий упало с 18 до 5 в месяц.

Шаг 1: набор эталонов

Соберите контрольный набор запросов и ожидаемых ответов (benchmark). На практике это делается в три этапа и занимает 1–2 недели при наличии 100–500 реальных примеров.

1.1 Объём и структура эталонов

Минимальный набор для начала — 200 запросов по ключевым сценариям: 50 генеративных (развернутые ответы), 100 classification/QA и 50 редактированных/корректирующих prompt. Оптимальный набор для продукта среднего размера — 1 000 примеров с распределением по user intent: информационный (40%), транзакционный (30%), разговорный (30%). В моём кейсе для финансового чат-бота мы использовали 780 запросов и измерили стабильность по 12 метрикам.

1.2 Источники данных и очистка

Источники: лог сервиса (2025-01—2026-03), hand-crafted тесты от PM, edge-cases от саппорта. Удаляйте PII по правилам GDPR/Закон РФ №152: хешируйте номера и адреса, заменяйте имена шаблонами. Автоматизируйте фильтрацию скриптом на Python — пример ниже.

# Пример очистки PII (2026)
import re

def sanitize(text):
    text = re.sub(r"\b\d{16}\b", "", text)  # карты
    text = re.sub(r"\b\d{10,11}\b", "", text)
    text = re.sub(r"[A-Z][a-z]+ [A-Z][a-z]+", "", text)
    return text

1.3 Формат хранения

Храните эталоны в нейтральном JSONL: поле input, expected_output (или список допустимых ответов), tags и category. Образец строки:

{
  "id": "test_001",
  "input": "Какой будет курс USD на завтра?",
  "expected_output": ["Нельзя прогнозировать курс с уверенностью", "Прогнозы нестабильны, уточните период"],
  "tags": ["finance","forecast"]
}

Используйте версионирование файла наборов — git LFS или S3 с меткой v1.0. Даты релизов эталонов записывайте в манифесте: created_at: 2025-11-17, updated_at: 2026-03-02.

Шаг 2: LLM-as-judge

Оценивать естественный язык вручную долго и дорого. LLM-as-judge — стратегия, где модель оценивает ответы по заранее заданным критериям. Это помогает масштабировать проверку до тысяч примеров за сутки.

2.1 Почему это работает и когда не работает

LLM хорошо справляется с семантическим сравнением и суждением по критериям, если критерии формализованы. Не работает для тонких правовых заключений или где требуется внешняя верификация фактов: там нужен human-in-the-loop. На нашем проекте LLM-as-judge отбросил 62% случаев, требовавших ручной проверки, но допустим ошибку в 4% случаев на юридических prompt.

2.2 Как формализовать критерии оценки

Определите 3–5 шкал: релевантность (0–1), корректность фактов (0–1), вредоность/безопасность (0–1), стиль/тон (0–2). Для каждого шкального элемента приведите 2–3 примера. Пример инструкции к judge:

Instruction:
Rate the model answer on three axes -> relevance(0/1), factuality(0/1), tone(0-2).
Examples:
- If answer repeats user request without adding information -> relevance=0
- If answer contains false factual claim -> factuality=0
- If tone is formal and appropriate -> tone=2

2.3 Примеры prompt для judge (2026)

Для OpenAI-like и локальных LLM используйте короткий системный prompt + schema output. Пример:

System: You are an evaluator. Output JSON: {"relevance":0|1,"factuality":0|1,"tone":0|1|2,"comment":"...\