AI Radar
← 記事一覧に戻る

Evaluate AI agents systematically with Agent-EvalKit

medium
AWS ML Blog2026/6/11原文を読む →

AI 要約

Agent-EvalKitは、AIエージェントを体系的に評価するためのオープンソースツールキット(Apache 2.0)。Claude Code、Kiro CLI、Kilo Codeなど主要AIコーディングアシスタントと統合し、6つの評価フェーズを通じてエージェントの品質を測定できる。Strands Agents SDKとAmazon Bedrockを用いた旅行リサーチエージェントを例に動作を解説しており、AIエージェント開発者・評価担当者に直接影響する実用的ツール。

AIエージェント評価オープンソースAgent-EvalKitAmazon Bedrock開発ツール