以 ChatGPT 为代表的大语言模型爆火后,推动了对话类人工智能产品的高速发展,我们已经看到了如智能助理、问答系统、自动写作等多种类型的个性化对话类 AI 服务。 AI 能力的提升让人们对智能 AI 产品的期望越来越高,相关产品的用户体验也因此变得重要起来。而用户测试是保障产品用户体验的重要方法,对于 AI 类产品也不例外。
但与传统使用图形界面的产品不同,以自然语言作为输入的对话类 AI 产品的用户测试仍然面临着一定的挑战。
在传统图形界面中,用户的交互指令是相对有限的,因为界面中的按钮、菜单选项等都是有固定数量的,我们可以预期单个任务的用户交互路径数量。
然而,因人类语言系统的开放性,在对话类的 AI 产品中,用户为使用一个功能所给出的语音指令是无限的,这大大增加了测试的难度。尤其是在产品概念期和设计早期,在 AI 系统尚未实现全部功能时,如何通过有限的系统能力,应对无限的用户指令进行测试,了解用户对 AI 系统的真实、有效反馈就成为了问题。
在 AI 产品有了大量数据和长时间的训练,并达到稳定有效时,产品设计和开发者已经投入了大量的时间成本和人力成本,如果这时再进行用户测试发现体验不好,就会造成很大的损失。
那有没有什么办法提前验证 AI 驱动的产品,并提前了解它的用户体验呢?这时,绿野仙踪测试就派上用场了。
这个名字来源于经典童话《绿野仙踪》(the Wizard of Oz),故事中的主角们遇到了一个无所不能的魔法师——奥兹国王,但这个国王其实只是一个没有任何法术的普通人,大家看到的一切都是他躲在帘子后面操作机器完成的。
绿野仙踪测试法就是来自这,由真人在幕后扮演 AI ,从而使在前台的用户相信产品是通过人工智能技术来实现他们指定任务的。它的好处是用低成本的方式测试开发成本高的项目,非常适合用来在早期测试 AI 驱动的产品。
早在 1984 年,就有人使用了绿野仙踪测试法,进行了经典的智能语音输入实验,成功展示了如何测试一个还不存在的系统。
被试者被告知可以使用语音输入的方式在电脑上录入,但实际上他看见的所有呈现在电脑上的字,都是在另一间屋子中研究者输入的。即研究者能听到被试者说了什么,然后用键盘帮他打字。但整个过程,被试者都以为是电脑自动化完成的。
一般我们需要两位研究者进行测试,一位担任主持人向参与的测试者介绍测试的大体流程,并在测试过程中进行观察和记录,另一位研究者在幕后担任“魔法师”。
测试开始前,要先确定被测试产品的概念,为它创建必要的图像、元素。同时,在测试的前期,需要明确“魔法师”与测试者的交互方式,即测试中使用哪些设备、技术?通过什么操控产品原型?
其他就如同传统的用户测试一样,需要准备用于测试的,能代表产品核心功能的任务,并准备好预演,确保研究员在测试现场能根据用户的各类语言指令迅速做出有效的响应。需要注意的是,绿野仙踪法对于“魔法师”有一定的要求,需要扮演这个角色的研究者训练有素,只可针对研究相关的特定场景和指令类型有所回应。
通过这样的方式,在系统还未完善前,我们就能了解到用户对于这些功能的体验如何,以及使用这些功能时的心理模型、期望和用于下达交互指令的词汇。
例如让智能助手类 AI 创建一个群聊,用户会有多少类表达方式,这些在目前我们的产品功能定义中是否都覆盖了?或者在某些聊天场景中,有没有因机器人的智能程度不足,阻碍了用户的使用,这对于用户体验的影响是否严重。这些信息都可以通过绿野仙踪法在正式开发前就提前获得的。
对于很多使用自然交互类的 AI 产品来说,绿野仙踪法是强大的测试工具。它让产品设计者可以不需要等到产品功能齐全,在低成本、低风险的环境中测试和完善用户界面。
同时,"绿野仙踪法"有助于建立更深入的用户参与度。通过在测试中使用虚拟环境和故事情节,测试参与者可以更好地理解产品的用途和潜在价值。他们能够更容易地将自己投入到产品的使用情境中,从而提供更为真实和有代表性的反馈。这有助于发现产品的潜在问题和改进点,使产品更符合用户的需求和期望。
换句话说,它加速了产品的开发过程,提高了产品的质量,同时使测试过程更富有创意和吸引力。通过这种方法,产品设计者可以更好地满足用户需求,创造出更具吸引力和竞争力的产品。
鼎道智联一直以 AI-Native 为目标,DingOS 也在努力为用户们带来更安全、绿色、便捷的操作体验,为开发者带来更开放的合作环境,为所有的使用者如果你也认可我们的想法,欢迎关注我们加入鼎道生态~