エージェント評価の半分はLLMジャッジが要らない — そしてそれは、最も痛い失敗を捕まえる半分だ
lowAI 要約
エージェント評価において、LLMジャッジを使わずに決定的なルールベース評価器で半数のケースを検出できるという主張の技術ブログ。依存ゼロの軌跡評価ライブラリ「eval-sanity v0.3」を公開し、LLMジャッジが最も見逃しやすい失敗パターンを構造的チェックで捕捉できると提唱している。個人開発者によるOSSプロジェクトの紹介であり、実証データや査読の裏付けは限定的。
エージェント評価LLMジャッジOSS軌跡評価eval