「有意差なし ≠ 差なし」を Claude Fable 5 は理解しているのか——設計書レビューで見えた Opus 4.8 との差
lowAI 要約
ゲームバランス設計書のレビューを題材に、Claude Fable 5とOpus 4.8の統計的理解力を比較した個人実験記事。「有意差なし≠差なし」という統計の基本的な誤りを、一方のモデルは自発的に指摘し、もう一方は明示的に質問されるまで見逃したという。LLMの統計リテラシーや一貫性の違いを示す事例として興味深いが、単一事例の個人ブログ投稿であり信頼性・汎用性は限定的。
ClaudeLLM評価統計リテラシーモデル比較個人実験