Product Designer
返回列表
评测工具2026-04-28template

LLM 体验评测评分表

帮助团队把 AI 体验拆成可评分、可复盘、可排序的问题维度。

LLM EvalScorecardDesign Ops
01

评分维度

包含意图理解、事实准确、上下文连续、可解释性、可控性、失败恢复和任务完成质量。

02

使用建议

每次评测都保留样本、评分原因和版本信息,方便后续对比模型和产品改动。