评测工具2026-04-28template
LLM 体验评测评分表
帮助团队把 AI 体验拆成可评分、可复盘、可排序的问题维度。
LLM EvalScorecardDesign Ops
评分维度
包含意图理解、事实准确、上下文连续、可解释性、可控性、失败恢复和任务完成质量。
使用建议
每次评测都保留样本、评分原因和版本信息,方便后续对比模型和产品改动。
帮助团队把 AI 体验拆成可评分、可复盘、可排序的问题维度。
包含意图理解、事实准确、上下文连续、可解释性、可控性、失败恢复和任务完成质量。
每次评测都保留样本、评分原因和版本信息,方便后续对比模型和产品改动。