LLM EvalDesign OpsDashboard
2025 / 体验评测体系负责人 / Design Ops
LLM Experience Evaluation
把主观 AI 体验质量拆解为可评分、可复盘、可推动迭代的评测体系。
-42%评审周期
+55%问题发现
8评测维度
PDF
评测体系说明 PDF
评分维度、样本结构、评审流程。
Images
评测看板截图
问题分布、版本对比、趋势追踪。
Prototype
评审工作流原型
跨团队评审与标注路径。
01
项目背景
团队对“AI 好不好用”的判断高度主观,产品、设计和算法难以围绕同一组问题做优先级决策。
02
我的职责
- 定义体验评测维度和评分规则。
- 设计评测看板、问题分布和版本对比体验。
- 组织跨团队评测工作坊。
03
设计过程
- 收集历史问题,聚类为可操作的体验维度。
- 把模型输出、用户意图和产品反馈串成评测样本。
- 用真实用例校准评分一致性。
04
最终成果
- 形成 LLM 体验评分表、看板和评审流程。
- 让模型、产品和设计在同一指标下讨论质量。
05
数据结果
- 设计评审周期缩短 42%。
- 上线前问题发现率提升 55%。
- 复用于 5 条 AI 产品线。