评测工具2026-04-28template

LLM 体验评测评分表

帮助团队把 AI 体验拆成可评分、可复盘、可排序的问题维度。

LLM EvalScorecardDesign Ops

评分维度

包含意图理解、事实准确、上下文连续、可解释性、可控性、失败恢复和任务完成质量。

每次评测都保留样本、评分原因和版本信息，方便后续对比模型和产品改动。