LLM生成システムの検証設計スキル。assay-kitフレームワークを活用し、LLM特有の失敗モード(幻覚、例への過学習、部分的処理)を考慮した総合的なテストケース設計を支援する。 使用タイミング: - LLMベースのワークフロー/エージェントの評価設計時 - ゴールデンデータセット(golden-dataset.yaml)の設計・拡張時 - 既存テストが特定パターンに過学習していないか検証時 - LLM出力の品質スコアラー設計時 - 「なぜこのテストケースが必要か」の根拠を示す時
/plugin marketplace add CAPHTECH/claude-marketplace/plugin install caphtech-plugin@caphtech-marketplaceThis skill inherits all available tools. When active, it can use any tool Claude has access to.
references/failure-modes.mdreferences/generalization-patterns.mdreferences/scorer-design.mdreferences/test-case-templates.mdLLM生成システムの検証を設計するためのガイド。
# 1. 検証対象の機能を特定
target_function: "テキスト置換"
# 2. 不変条件を定義
invariant: "入力テキストAをBに変換、他は不変"
# 3. 失敗モードを列挙(→ references/failure-modes.md)
failure_modes:
- example_overfitting # プロンプト例への過学習
- hallucination # 幻覚(存在しない内容の生成)
- partial_processing # 部分的処理
# 4. 汎化テスト設計(→ references/generalization-patterns.md)
# 5. テストケース生成(→ references/test-case-templates.md)
LLM特有の失敗パターンを特定。詳細は failure-modes.md。
| 失敗モード | 検出方法 | 対策テスト |
|---|---|---|
| 例への過学習 | 例と異なる入力でテスト | 同カテゴリ別例、異カテゴリ例 |
| 幻覚 | 入出力差分の厳密検証 | 入力に存在しない内容チェック |
| 部分的処理 | 全マッチの網羅性検証 | 複数出現、複数ブロック |
| 指示誤解釈 | 境界条件テスト | 類似だが異なる指示 |
プロンプト例への過学習を防ぐテスト設計。詳細は generalization-patterns.md。
プロンプトに例Xがある場合:
├─ Xと同カテゴリの別例Y, Zでテスト
├─ Xと異なるカテゴリの例A, Bでテスト
└─ テスト入力 ∩ プロンプト例 = ∅ を保証
変数の直交組み合わせでテストケースを生成:
操作種別 × 入力形態 × 出現パターン × ブロック種別
↓
ペアワイズ法で組み合わせ削減
↓
優先度付きテストケース生成
多面的な品質評価。詳細は scorer-design.md。
| スコアラー | 測定対象 | 閾値例 |
|---|---|---|
| operation-accuracy | 操作種別・数の正確性 | 80% |
| target-block-precision | ターゲット特定の正確性 | 75% |
| content-quality | 生成内容のパターンマッチ | 60% |
| anti-hallucination | 幻覚の不在 | 100% |
# ✗ Bad: プロンプト例と同じ入力でテスト
prompt_example: "カート → Cart"
test_input: "カート → Cart" # 過学習を検出できない
# ✓ Good: プロンプト例と異なる入力でテスト
prompt_example: "カート → Cart"
test_inputs:
- "ユーザー → 利用者" # 同カテゴリ(カタカナ)別例
- "効率化 → 最適化" # 異カテゴリ(漢字)
- "API → インターフェース" # 異カテゴリ(英語)
# ✗ Bad: 単一パターンのみ許容
expectedContentPatterns:
- "要約"
# ✓ Good: LLMの非決定性を考慮した複数パターン
expectedContentPatterns:
- "要約|まとめ|サマリー"