语音交互设计：设计流程与方法

由宝珠 · 发布日期 2018-06-27 · 已更新 2019-04-09

作者：晏菲 @阿里TXD技术体验设计

“ 语音交互设计仅靠书本上的知识是不够的，在实际项目中，除了要了解需求、目标用户以外，还要了解语音设计所应用的场景、技术水平、设备配置等，从而有的放矢的展开设计。本文结合参与的项目，将语音交互设计的流程、设计关键点以及如何通过设计化解技术限制，和大家进行分享。”

日常设计工作中，大家都会按照一定的设计流程开展工作，通用的流程一般有：探索调研 > 分析聚焦 > 设计策略 > 测试验证。同样，这个流程可以复用到语音交互设计中，只是设计对象的媒介和我们产出的设计原型发生了改变，但我们发现问题、解决问题的思路应该是类似且可复用的，尤其是在新的设计领域中，不妨借鉴成熟的方法、流程，确保工作顺利开展。具体的设计流程与环节如下图：

图1 · 语音交互设计流程

一、探索调研

1.1 明确需求

笔者所参与的项目是“公司机房服务的工业机器人” 的语音设计，这类产品的功能比家用设备的更为强大，除了语音外，它支持：行走、人脸识别、任务解析、数据采集等，同时场景也更为复杂。首先机房环境声音嘈杂、环境复杂；它的性质又决定对人员的安全要求极高，需要准确的识别与判断，这些在了解需求阶段是必须明确的环节。

机器人的主要功能就是辅助参观人员、维修人员、驻场工程师更好的完成机房工作，实现机房业务管理智能化，提高运维管理效率和准确率。那么作为体验设计方，则是通过各场景、各环节的体验设计，让人与机器人、与系统的交互高效、自然、流畅，让智能化的机房日常运维管理更加完善。

1.2 了解业务场景及目标用户

在上一篇文章中对主要的五种场景（智能家居、车载驾驶、企业应用、医疗、教育）分别进行了介绍。不同的场景，意味着用户不同的需求和目的，对语音交互的要求也不相同。下面就针对机房环境进行场景分析与设计难点的介绍。

图2 · 机器人功能及场景特征

1.2.1 工作场景

恒定噪音：作为机房服务场景的语音机器人，使用环境声音的嘈杂首先会影响语音录入的准确性。语音交互包含三个重要部分：自然语音识别、自然语音理解、自然语音生成，因此解决设备“听”清楚的问题，关系到后续流程能否顺利展开。这里就需要依靠“设备技术”来解决，通过优化听筒的降噪能力，尽量过滤掉噪音。

环境复杂：机房中机柜众多，服务器高低不一、设备管线错综复杂，如图3：这给机器人的正常作业带来挑战，尤其是这种对安全性和准确性要求很高的场景。首先，机房包间中的环境光线影响机器人对人脸的识别和机柜数据的读取；其次，机柜中服务器位置高低不同，机器人需要不断调整摄像头的角度，以确保采集到完整信息，也可能存在视野死角导致无法全部读取。这一部分，则需要通过不断的测试与调整，提高机器人自身性能，使其更好的适应现场环境，具有设备、网络线缆的识别能力，减少不必要的“人为”破坏，增加人脸、数据识别的准确性。

图3 · 一般的机房环境

空间局促：在机房中机柜之间的空间不大，过道也比较狭窄，这给机器人行走带来一定影响。第一：行走速度不能过快，由于机器人自重150斤，走路太快会有惯性，有可能出现不小心撞到机柜的情况；第二：很多时候无法和人并行走路，这导致人机互动体验不好，再加上机器人本身走的慢，很有可能出现“人走在前面，遮挡住机器人视线”的问题。为此，在设计语音时，只要机器人感应到有遮挡，便会播报：“我好像被挡住了，请保持前方通畅”，以此来友善的提醒用户，减少这种封闭环境下用户的不适应。

1.2.2 目标用户

通过团队的调研，收集到在整个数据中心有5类用户，其中会进入机房与机器人直接发生交互的主要有三类：访客、厂商、数据中心驻场，如图4。图中是这三类用户的工作内容与场景接触点，确认目标用户，便于设计对后续用户调研的聚焦与体验地图的梳理。

图4 · 用户分析

1.3 技术水平

1.3.1 硬件

硬件来说，目前的语音产品包括：纯语音（天猫精灵）和语音及界面结合（iphone的siri）两种配置。在设计之初，我们需要了解语音产品的基本硬件配置，这其中也包括麦克风、摄像头、听筒、设备联网程度等，因为，产品的配置会影响我们后期的设计策略与体验。例如问语音产品：“世界十大旅游胜地都是哪些？、中国56个名族都有什么？”，即便语音助手可以准确的告诉我们答案，但无疑是一个沉重的认知与记忆负担，如果配合屏幕来显示，情况会好很多。最好的人机交互形式是混合型的，即GUI+VUI（图像交互+语音交互）如图echo show，如果你所设计的是纯语音产品，那么在设计时则需要考虑更多的引导、容错、提示等。

图5 · 亚马逊Echo Show

本次项目中所涉及的机器人不带显示屏幕，并且语音不联网，这就意味着所有对话都需要提前预设好，设计师需要根据可能出现的情况，将对话内容完善，并且做必要引导，让用户按照系统期望的流程进行，确保工作顺利、安全的开展。如下图：在设计时，对于较长对话，在内容中加入“如果没听清楚，请回复我‘重复一遍’〞的提示，避免用户没有听清而错过信息；同时对于用户的回答，也给予答案提示，“维修结束时请回复我‘维修结束’ 〞通过设计去尽量规避机器人硬件的缺陷，减少“答非所问”的错误发生率和用户回答的发散，提高语音交互流程的顺畅。

图6 · 语音交互引导示例

1.3.2 算法：

算法方面，则需要通过机器“深度学习”，不断完善语音识别、语音理解及语音合成的水平。目前，语音识别方面还面临很多技术挑战，如：

噪音：
恒定噪音（公路上、机房中）和突发噪音（突然异常大声）。
多人讲话：
多人讲话，设备能否识别其中一条信息；同样多设备时，如何辨别自己的主人在说话。
儿童：
儿童说话逻辑性较弱，容易出现口吃、长时间停顿等现象。
短句：
“是”、“不”这种短句提供的数据信息较少，会造成识别率低。
多音字：
比如人名，同样的音会有多种书写文字“清”“轻”，会影响语音识别的准确性。

更多关于机器人“深度学习”的内容大家可以自行了解，这里不展开讨论。

二、分析聚焦

具体在分析聚焦阶段，设计的思路是：用户调研 > 聚类分析 > 角色建模 > 体验设计。围绕与机器人相关的机房工作人员，提升他们在工作中的服务体验，确保顺畅、安全、高效的工作流程。

图7 · 用户分析

2.1用户画像

针对第一章节中定位的三类用户，我们通过问卷，进⾏用户访谈，旨在了解各个不同角⾊的用户他们工作的内容、需求，以及有哪些痛点可以抽取出来由机器人替代，从而优化各角色的服务体验。

图8 · 用户问卷设计

共计访问10位用户，包含各个角色。访问之后，我们对用户访谈的结果进行整理，整理维度有：日常工作描述、工作中的需求与期望、对机器人工作融入的畅想与担心。在此基础上，完成用户角色建模，通过各类角色的工作内容、痛点、情景设定、工作评分这四个主要方向进行描述与呈现，以驻场工程师为例，具体的用户角色卡如下图所示：

图9 · 用户角色信息卡–驻场

最终根据用户画像和调研中收集的问题进行聚类分析，集中梳理与归类，得到用户诉求，即对机器人应用场景下的机房服务的“服务主张”，围绕“安全”“规范”“高效”三个方面。这三个机房服务的体验目标，也是作为后续机器人语音设计所要达到的基本要求。

图10 · 机房服务主张

2.2 体验地图

与机器人交互的环节涉及到线上、线下，从线上任务的提交到线下与机器人真实交互，再到过程中机器人收集信息的回传，整个闭环链路构成机房机器人服务体验的核心。以其中导览场景为例，介绍整体流程，线上的主要触点：任务申请 > 任务生成 > 任务确认 > 任务存档；线下的主要触点：任务下发 > 机器人唤醒及用户身份验证 > 任务执行 > 任务结束，具体的触点详情及语音流程见下图：

图11 · 机器人服务体验流程

经过体验地图的梳理与流程规划，去构建合理、有序的流程，在任务执行过程中保证人机交互“自然、亲切、可靠”的体验，同时配合技术优化，完善机器人语音交互的丰富度，在语音交互设计中也会利用适当的引导与必要的提示，以更自然的方式消除异常时的尴尬，快速做到工作衔接。

三、设计策略

3.1 定义角色人格

VUI产品是一个虚拟的人与用户直接沟通，因此，沟通对象的语气风格、性格等则是用户接触的第一感受，为了提升真实性，定义一个符合自己产品调性的角色至关重要，也是着手真正语音设计的第一步。

这里的角色，是通过应用程序的语音及语言选择，塑造一个符合品牌服务特征，并且具有人格或心理的形象【1】。角色人格包含：

公司所传达的态度
产品的个性特征
期望别人如何看待它

在本次项目中，笔者在开始设计时，也先对机器人的语音调性和语气风格做了定义，根据语音交互场景和机器人的功能特性，语气规范追求的是：笃定、尊重、正式、亲切的感受，既让用户感受到机器人工作的严谨性与安全性，又让整个服务体验兼具友善、和谐与温度。

图12 · 机器人语音调性与语气规范

以“笃定”为例，表达语气的说明和示例，通过语气规范，统一整个语音交互原型的调性。

图13 · 语气规范示例

在设计时，我们可以用“真实的人物”来定义声音特征与沟通基调，分析、了解真实人物模型的个性特征。例如儿童早教类语音产品，可以以大家熟知的“金龟子”为人格原型进行定义，沟通中模仿她的语气、用词，让儿童感到亲切并符合服务对象的特征喜好。同时，我们需要设定“期望人们如何看待我们的语音产品”，传达怎样的服务理念。

图14 · 人物模型

但这里值得注意的是，现在很多语音助手支持语音选择，如男声、女声、少年等。我们要知道，“改变声音的同时，就意味着换了不同的人格”，他们的语音交互特征、形式等应该发生相应变化。同样一句很可爱、很活泼的话，小孩说合适，但如果换到“成熟男士”，多少会有些不合时宜。

图15 · 人物语气的多种性格

3.2 语音交互设计

语音设计的原型更像是“剧本设计”，需要考虑在哪个场景下，包含什么角色、他们如何对话、如何过度衔接、具体的语言如何等，如下图就是在此次项目中输出的语音设计原型，具体内容涉及到信息隐私，这里就不展开了，但是整个语音交互脚本中，对场景、角色、对话脚本备注图例、脚本正文等都做了明确定义与设计，后面就围绕如何做好交互引导、反馈、异常处理这四个方面进行介绍。

图16 · 语音交互脚本原型

3.2.1 语音交互引导

在设计语音脚本内容时，需要特别考虑VUI与人对话过程的语言衔接、对话内容的顺畅，并且能够自然的完成设想的任务。例如当询问用户信息时，最好给出一些示例，而不是说明。以下两句话大家可以明显感受到体验的差异，对于用户来说，参照示例填写信息，比理解一个通用指令更加容易。

“请告诉我你的出生日期，如2017年12月12日”
“请告诉我你的出生日期，包括年月日”

3.2.2 语音交互反馈

在GUI界面中，“确认反馈”随处可见，点击一个按钮、进行一个编辑操作，我们会设计不同重要程度的交互反馈；在VUI中，同样有不同程度的“确认反馈”，本文主要将他们分为三种：显性确认、隐形确认、视觉确认。

图17 · 语音交互反馈

3.2.3 语音交互异常处理

语音可能存在的异常情况主要有以下四种：

未检测到语音（明确告诉用户“我没听清”）
检测到语音，但没有识别（“我不明白你的意思”）
语音被正确识别，但系统无法处理（“出现异常”）
部分语音识别错误（答非所问）

在设计中，我们可以按照不同的异常情况，设计多种播报脚本，提高产品容错性，缓解异常时候的尴尬，在此例举些常见的用户语音输入错误的回答，如图18。

图18 · 用户输入错误时的回答

四、测试验证

4.1、语音设计原型测试

以项目中团队采用的两种脚本测试方式为例，分别是：剧本朗读和语音转换工具。通过剧本朗读，体验对话的流畅程度，确认是否存在对话呆板、重复、不自然的情况；通过文字转语音工具，如QQ语音转化，可以较真实的感受机器将对话说出来的效果。

图19 · 语音设计原型测试

4.2、语音及设备测试调优

设计交付后，功能开发完成，进入语音设备可运行阶段，这时系统具备测试功能。测试调优的方法同样给大家列举两个：一是可以通过开发、设计人员，进行实际人机测试，了解语音功能是否稳定、任务完成率如何、整个体验流程是否自然顺畅；二是可以通过用户观察的方法进行调研，找到符合特征的目标测试用户，利用机房的监控摄像头，观察“自然状态下”的用户如何工作，这样不会干扰用户，更贴近真实的使用情景。

图20 · 人机使用测试

五、总结

以上是笔者首次接触语音交互设计的设计经过，对VUI设计中的知识点、流程、方法进行的总结，仍有很多不全面之处，后续随着项目的迭代和设计的深入，逐步去完善体验，总结沉淀。

【1】参考书籍：《语音用户界面设计》 Cathy Pearl (著)王一行(译)
原文来源： TXD技术体验设计（公众号：TXD-UED）

9+

小欣说道：

2018-07-17 2:16 下午

谢谢作者分享！“与机器人交互的环节涉及到线上、线下，从线上任务的提交到线下与机器人真实交互，再到过程中机器人收集信息的回传，整个闭环链路构成机房机器人服务体验的核心。以其中导览场景为例，介绍整体流程，线上的主要触点：任务申请 > 任务生成 > 任务确认 > 任务存档；线下的主要触点：任务下发 > 机器人唤醒及用户身份验证 > 任务执行 > 任务结束” 学习一下。 http://www.logicalthinksoft.com

回复
匿名说道：

2018-08-21 10:30 下午

非常系统的VUI设计流程和方法，很干

回复

语音交互设计：设计流程与方法

一、探索调研

1.1 明确需求

1.2 了解业务场景及目标用户

1.2.1 工作场景

1.2.2 目标用户

1.3 技术水平

1.3.1 硬件

1.3.2 算法：

二、分析聚焦

2.1用户画像

2.2 体验地图

三、设计策略

3.1 定义角色人格

3.2 语音交互设计

3.2.1 语音交互引导

3.2.2 语音交互反馈

3.2.3 语音交互异常处理

四、测试验证

4.1、语音设计原型测试

4.2、语音及设备测试调优

五、总结

9+

文章推荐

阿里设计专家深度解读：全链路设计师和设计增值再现

阿里设计师实战案例解读内容化设计

阿里用户体验专家李白：用户增长海盗法则与体验策略怎样结合？

阿里巴巴用研视角：3种问题拆解的思路探讨

阿里设计师：如何做好一场设计提案的Presentation

2 条回复

发表评论取消回复

语音交互设计：设计流程与方法

一、探索调研

1.1 明确需求

1.2 了解业务场景及目标用户

1.2.1 工作场景

1.2.2 目标用户

1.3 技术水平

1.3.1 硬件

1.3.2 算法：

二、分析聚焦

2.1用户画像

2.2 体验地图

三、设计策略

3.1 定义角色人格

3.2 语音交互设计

3.2.1 语音交互引导

3.2.2 语音交互反馈

3.2.3 语音交互异常处理

四、测试验证

4.1、语音设计原型测试

4.2、语音及设备测试调优

五、总结

9+

文章推荐

阿里设计专家深度解读：全链路设计师和设计增值再现

阿里设计师实战案例解读内容化设计

阿里用户体验专家李白：用户增长海盗法则与体验策略怎样结合？

阿里巴巴用研视角：3种问题拆解的思路探讨

阿里设计师：如何做好一场设计提案的Presentation

2 条回复

发表评论 取消回复

发表评论取消回复