Product Designer

LLM EvalDesign OpsDashboard

2025 / 体验评测体系负责人 / Design Ops

LLM Experience Evaluation

把主观 AI 体验质量拆解为可评分、可复盘、可推动迭代的评测体系。

-42%评审周期

+55%问题发现

8评测维度

PDF

评测体系说明 PDF

评分维度、样本结构、评审流程。

Images

评测看板截图

问题分布、版本对比、趋势追踪。

Prototype

评审工作流原型

跨团队评审与标注路径。

01

项目背景

团队对“AI 好不好用”的判断高度主观，产品、设计和算法难以围绕同一组问题做优先级决策。

02

我的职责

定义体验评测维度和评分规则。
设计评测看板、问题分布和版本对比体验。
组织跨团队评测工作坊。

03

设计过程

收集历史问题，聚类为可操作的体验维度。
把模型输出、用户意图和产品反馈串成评测样本。
用真实用例校准评分一致性。

04

最终成果

形成 LLM 体验评分表、看板和评审流程。
让模型、产品和设计在同一指标下讨论质量。

05

数据结果

设计评审周期缩短 42%。
上线前问题发现率提升 55%。
复用于 5 条 AI 产品线。