Product Designer
返回列表
LLM EvalDesign OpsDashboard

2025 / 体验评测体系负责人 / Design Ops

LLM Experience Evaluation

把主观 AI 体验质量拆解为可评分、可复盘、可推动迭代的评测体系。

-42%评审周期
+55%问题发现
8评测维度
PDF

评测体系说明 PDF

评分维度、样本结构、评审流程。

Images

评测看板截图

问题分布、版本对比、趋势追踪。

Prototype

评审工作流原型

跨团队评审与标注路径。

01

项目背景

团队对“AI 好不好用”的判断高度主观,产品、设计和算法难以围绕同一组问题做优先级决策。

02

我的职责

  • 定义体验评测维度和评分规则。
  • 设计评测看板、问题分布和版本对比体验。
  • 组织跨团队评测工作坊。
03

设计过程

  • 收集历史问题,聚类为可操作的体验维度。
  • 把模型输出、用户意图和产品反馈串成评测样本。
  • 用真实用例校准评分一致性。
04

最终成果

  • 形成 LLM 体验评分表、看板和评审流程。
  • 让模型、产品和设计在同一指标下讨论质量。
05

数据结果

  • 设计评审周期缩短 42%。
  • 上线前问题发现率提升 55%。
  • 复用于 5 条 AI 产品线。