用户体验记分卡:量化和传达用户体验

翻译:優越   审校:王猫猫 |   UXRen翻译组 #366译文
作者:Matthew Garvin (高价会)
原文标题:《UX scorecards: Quantifying and communicating the user experience》

 

用户体验记分卡是从业务角度传达可用性指标的重要方法,它们可以使团队量化用户体验,并随着时间跟踪其变化。

通过收集“前后一致”且“标准化”的体验指标可以使组织更好地了解网站、软件和应用程序当前的用户体验水平。
(Sauro,2018)

我最近在做的是一款录制管理类产品原型的可用性测试,之前它还没有进行过用户体验研究。 因此,我们的首要任务是建立起指标基准。为此,我们针对三个指标测试了原型:成功率(success rate),易用性(ease of use)和可用性(usability)。 我们采用了行业认可的评分方法:

  1. 成功率:成功标准评分(SCS,success criteria scoring)
  2. 易用性:单项难易度问题(SEQ,single ease question)
  3. 可用性:用户体验精简版的可用性指标(UMUX-lite,usability metric for user experience lite)

对于UMUX-lite,通常会通过回归模型将分数转换为更广为人知的系统可用性量表评分(SUS,system usability scale)。

 

指标(Metrics)

1. 任务成功率(Success Rate)

为了量化成功率,我们使用了成功标准评分(SCS)的方式。我们将测试任务分解成一系列步骤,然后对每个步骤中的用户表现进行打分。参试者会得到3点评分中的其中1种。

  • 如果他们顺利完成任务步骤并且没有出现任何问题,记作1分。
  • 如果他们没有请求帮助,靠自己挣扎着完成任务,记作0分。
  • 如果他们尝试失败或者需要我引导和帮助他们,则记作-1分。

这项测试被细分为31个独立的步骤。再乘以8位参与者,于是积分卡上有248个(=31个步骤*8人)得分机会。

 

SCS分值差异(总和减去计数)

图1:图表展示了个体SCS分数和累积分数之间的差异(灰色线条是差异值)

为了更好地理解用户在哪个步骤遇到困难,我们会计算给定步骤的差异(得分总和减去计数总和)。从上述的SCS图表中,我们可以看到参试者具体在哪些步骤遇到了困难,在哪些步骤可以顺利完成。这个图表展示了连带差异值的个体结果。正如你所注意到,图表中单个参试者所能获得的最好评分是1分,而差值的最佳结果是0分。

 

按任务划分(Broken Down by Task)

图片2:来自Luis Villasmil在Unsplash上发布的照片

为了计算成功率,引用了Jakob Nielsen在2001年时候提出的计算方式。第一步,我将所有的“1分”记为参数“S(success,成功)”,所有的“0分” 记为参数“P(pass,通过)”,所有的“-1分” 记为参数“F(fail,失败)”。

然后按照任务来过滤数据,我们计算成功率的公式是:(S+(P*0.5))/O,其中O表示可能的得分机会。

对于任务1,计算公式是:=(25+(6*0.5))/32 = 88%

因为在32个得分机会中,有25个成功和6个通过。

大部分参试者完成这个任务是没有问题的。但测试中有个局限条件。我们的原型设计旨在测试报告编写系统的功能和特性,我们却没有让他们完整地填写报告。相反,我们只是简单地让他们点击屏幕上的表单域,这些表单域将会自动在相关的区域填充数据,然后只需要点击按钮就可以继续到下一个页面。

任务2的成功率计算公式是:=(155+(5*0.5))/160 = 98%

因为在160个得分机会中,有155个成功和5个通过。

我们的评分度量确实揭示了导航步进器的相关问题。在这些步骤中,参试者获得的分数少的原因更可能是因为,用户不熟悉新的UI样式。与在任何软件和应用中引入新UI样式,其功能都会缺乏可预期性。然而,从参试者提供的反馈和其他指标的相对分数数据来看,该功能的交互方式非常容易学习和记忆。虽然如此,但是我们还是对研究结果没有特别信心。参试者的招募也可能会影响、歪曲我们的研究结果。

因此,对任何新的功能和特性,我都强烈建议大家进行更广泛的测试以增加样本量,并产生统计显著性,这样我们就能通过显著性分析获得更强的信心。

任务4的成功率计算公式是:= (23+(7*0.5))/32 = 83%

即在32个得分机会中,有23个成功和7个通过。

尽管参试者认为“提交报告”是最简单的任务。它只有1个步骤。但在这个简单的步骤中,一半参试者却在发现“完成”按钮的环节上显得有些困难,得分为0。

任务5的成功率计算公式时:=(4+(4*0.5))/8 = 75%

因为在8个得分机会中,有4个成功和4个通过。

从所有步骤中筛选出参试者成功率最低的步骤(差异值分数为-4和-5的),我们重点划出在未来发布前优先考虑迭代优化的的5个具体步骤。

总体成功率的计算公式是:=(223+(22*0.5))/248 = 94%

因为在248个得分机会里面,有223个成功和22个通过。

 

2. 任务易用性(Ease of Use)

为了量化易用性,我们使用单项难易度问题(SEQ)。在完成了5项任务的前3项(开始事件报告、完成报告、提交报告)后,我们让用户填写一份0-6分的量表来表示完成任务的难易程度,0分代表非常困难,6分代表非常简单。因为我们以前的可用性测试中没有个人基准来作为对比,所以我们用历史平均数据5.5分作为对比基准(来自Sauro在2012年的研究成果)。

图3:图表表示了个体SEQ分数和单任务均值SEQ分数。

正如上图所示,“开始事件报告”被用户认为是测试中最困难的部分,问题平均得分只有3.33。虽然用户在“完成报告”和“提交报告”中也遇到同样多的麻烦,但是他们并没有认为这些是困难的。最终“完成报告”的SEQ均值得分是5分,“提交报告”的SEQ均值得分是5.5.

 

3. 系统可用性(Usability)

除非你正在测试可用性,否则您无法充分进行可用性测试。有很多业界认可的可用性评分方式可以选择,但标准的评分方式仍然是系统可用性量表(SUS)。这是一个测试完成后会给出10个问题的调查,回答后会汇总为一个SUS分数。多年的历史数据显示SUS平均分数是68分 (来自Sauro在2013年的研究成果)。

然而,对于期望在可用性测试结束后会得到用户良好的反馈,一份包含10个问题的问卷总是太长。相反,研究者们已经研发了另一款问卷:用户体验可用性指标(UMUX)。这是一款由5个问题组成的问卷调查,不仅能产生类似的结果而且更有效。IBM的研究人员进一步研究了这个方法的有效性(来自Lewis, Utesch, & Maher在2013年的研究成果)。他们所肯定的是,我们可以通过简单要求参试者对2个正向的UMUX描述勾选其同意水平,进而获得相似的反馈评分:

  • 这个系统的功能符合我的需求(This system’s capabilities meet my requirements)
  • 这个系统容易使用(This system is easy to use)

 

UMUX7点量表与SUS线性回归的分值转换

如果你让参试者在7点量表上对两个描述进行评分,0分表示完全不赞成,6分表示完全赞同,你就可以用回归公式将这些分数转换为SUS分数。

这些公式,你可以在Lewis等人的论文上看到。我第一次看到这些公式是在Quora,来自Atlassian公司的Jira产品负责人Otto Ruettinger。在帖子中,他展示了用Excel公式,将原始UMUX-lite分数转换成有用的SUS分数。

原始的格式是:

  • UMUX-L = ((a. /7) + (b. / 7))/2 x 100

范围是14到100。

SUS的回归变换计算是:

  • SUS Score = 0.65 ∗ ((a. + b. − 2) ∗ (100/12))+22.9

 

将5点量表转换成7点量表

当我把我的转换给团队的其他研究者看时,她察觉到我用的是精简版的UMUX5点量表,我上面提及的公式需要相应的变化。

不再是:

  • UMUX-L = ((a. /7) + (b. / 7))/2 x 100

而是:

  • UMUX-L = ((a. /5) + (b. / 5))/2 x 100

因为这个问题,我没有信心使用SUS回归计算来产生SUS分数。在做一些研究时,我无意中看到了一篇如何将不同的里克特量表转换成通用量表的文章。不管是将5点量表转化成7点量表,还是反之亦然。

我们最后得出的结论是:

图4:5点量表和7点量表的标准转换分值对应表

通过我的量表转换,我可以实现实现SUS回归公式和获得SUS分数了。

 

汇总所有指标

这些奇特的内容只有其他用户研究人员才会关心。而你的产品团队、开发团队和高管想要看到的前瞻性总结。你可以将这个指标汇总在一个用户体验计分卡中,以便利益相关者可以快速概览你的指标分析。这些计分卡可以帮助你解决争论,并通过明确下一个冲刺的优先级来使整个团队参与其中。

图5:每个维度分数的用户体验计分卡(例子)

 

引用文献(Works Cited)

  • IBM 技术支持. (2020, 4 16).《将不同的里克特量表转换成通用量表》
    原文来源于IBM技术支持:https://www.ibm.com/support/pages/transforming-different-likert-scales-common-scale
  • Sauro, J. (2012, 10 30).《10件需要知道关于单项难易度问卷的事情》
    原文来源于MeasuringU: https://measuringu.com/seq10/
  • Sauro, J. (2018, 19 23).《建立一份用户体验维度的分数卡片》
    原文来源于MeasuringU: https://measuringu.com/ux-scorecard/
  • Lewis, J. R., Utesch, B. S., & Maher, D. E. (2013).《精简的用户体验可用性指标——当没有时间做系统可用性测试量表的时候》.
    CHI 2013: Changing Perspectives, Paris, France, 2099–2102.
  • Nielsen, J. (2001, 2 17).《成功率:最简单的可用性指标》
    原文来源于NN/g Nielsen Norman Group: https://www.nngroup.com/articles/success-rate-the-simplest-usability-metric/
  • Ruettinger, O. (2018, 6 5).《如何在你的公司计算UMUX-L》
    原文来源于Quora: https://www.quora.com/How-is-UMUX-L-calculated-in-your-company
  • Sauro, J. (2013, 6 18).《你需要知道的10件关于系统可用性量表(SUS)的事情》
    原文来源于MeasuringU:https://measuringu.com/10-things-sus/

 

原文来源:https://uxdesign.cc/quantifying-and-communicating-the-user-experience-ed0d09d4f8cf(2020.08.06)
版权声明:该文章在UXRen公众号(cnUXRen)首发后方可转载,转载时请注明出处及译者、审校者信息,如有违背,UXRen社区保留侵权追责的权力。

1 条回复

  1. 头像 baozhu说道:

    图4中的表格有错误,5点量表的0分应该对应7点量表的1分。

发表评论

您的电子邮箱地址不会被公开。