我们家有两个娃,每次我们想要出去时订个酒店时都好麻烦。我在某程上找,我先看有没有家庭房,但家庭房很少,而且有些家庭房实际上只能睡得下两大一小。普通房间能不能睡得下四个人,那可是得查看很多信息,如床的尺寸、是否可以加床,是否可以睡沙发等等。每次订个酒店都要好久。我想很多有俩娃的家庭也有类似的烦恼吧。
这样的事情如果交给ChatGPT去做会怎么样呢,结果令人震惊,ChatGPT把方方面面都想到了,比我想得还要周全。
今天ChatGPT已经有插件通过Expedia订酒店,它可以帮我查看、分析酒店和房间的所有信息,帮我找到最合适的选择。
我无比期待在国内也能有类似的服务,要么是某程自己做一个这样的功能,要么某巨头搞一个同样智能的入口,然后用插件连接某程。
这是软件交互的革命,有了这样的交互,现在的软件这种让你不停的点点点、看看看、退退退的交互都土掉渣了。
Bill Gates在2023年3月21日发表的博文The Age of AI has begun中说ChatGPT是他有生之年见过两次革命性的Demo之一,是自图形用户界面以来最重要的技术进步。他认为控制计算机的主要方式将不再是指向和点击或点击菜单和对话框而是通过简单的母语写一个请求。我觉得Gates很好得概括了ChatGPT在交互方面的革命性和方向,如果交互的主要方式不再是点击而是对话,可以想象几乎今天所有的软件都需要重做。
温故知新,我们可以从命令行到GUI的发展来体会交互技术带来的变革有多大。以CRM为例,今天的CRM主要是通过大量的表单进行交互,如果CRM用命令行的方式实现,就需要通过如下图所示的众多命令来实现(来自开源的命令行CRM项目crm-cli)。
以上命令中还需要使用很多如下图所示的数据结构。
显然,命令行式交互有很明显的缺点:
学习成本高,易用性低:需要事先学习大量的命令和参数
效率低:文字输入比点击慢至少一个数量级,也没法利用上下文(GUI中的点击是可以带上下文的,也就是请求参数)
但命令行式交互也有一个很明显的优点,即方便通过“管道”或者“脚本”进行功能组合。此外对于复杂系统的专业人员来说效率可能更高,因为可以直接输入操作指令而不需要层层点击,只需要记忆指令而不需要记忆到达指令的路径。因为以上原因,虽然绝大多数用户都喜欢GUI,但程序员、运维等专业群体仍在较多使用命令行。
同样的道理,ChatGPT也会导致软件交互方式的变革。还是以CRM软件为例,基于ChatGPT的CRM软件具有传统CRM软件的基本功能,如联系人管理、销售跟踪、任务管理、报告等。然而,通过结合ChatGPT的强大自然语言处理能力,我们可以创造出一个更智能、互动性更强、用户体验更好的CRM系统。
基于大语言模型的对话式交互的优势非常多,以下是我的一些思考,说明了自然语言交互、利用上下文、多重上下文、智能求解、对话即编程等方面的优势,而我相信这仅仅是对话式交互优势的一小部分。
自然语言交互
基于ChatGPT的交互的第一个优势是可以使用非常自然的语言。
如销售代表可以用对话的方式完成以下工作:
客户信息查询:销售代表可以输入“显示客户A的详细信息和购买历史”。
日程安排与提醒:销售代表可以输入“明天下午3点安排与客户B的电话会议,并设置提醒”。
销售数据查询:销售代表可以输入“查询我本月的销售额和达成目标的百分比”。
创建和更新销售机会:销售代表可以输入“为客户C创建一条新的销售机会,可能对产品Y感兴趣”。
任务管理:销售代表可以输入“创建任务:下周二跟进客户F的订单状态,并在完成后通知我”。
销售主管则可以用对话完成以下工作:
团队绩效监控:销售主管可以输入“显示本月团队销售业绩”以获取团队成员的业绩数据和进度。
销售报告与分析:销售主管可以输入“生成本季度销售报告并分析表现突出的产品”。
任务分配与跟踪:销售主管可以输入“为李四分配任务:下周跟进客户A的需求,提醒我在下周五检查进度”。
协同工作与沟通:销售主管可以输入“将本月销售目标分享给全体团队成员,并收集他们的意见和建议”。
客户关系管理:销售主管可以输入“显示团队上周与客户B的所有互动记录”。
公司CEO则可以用对话完成以下相关工作:
公司业绩概览:CEO可以输入“显示本季度公司整体销售业绩和利润”。
部门绩效比较:CEO可以输入“比较各部门本月的业绩和达成目标的百分比”。
员工绩效评估:CEO可以输入“显示10名表现最佳的员工及其贡献”。
合作伙伴关系管理:CEO可以输入“查询与合作伙伴X的合同细节和合作成果”。
竞争对手分析:CEO可以输入“比较我们的产品与竞争对手Y的产品优劣”。
利用上下文
基于ChatGPT的交互的第二个优势是可以利用上下文提高输入效率。如以下模拟了销售主管李总的一轮对话:
李总:看下近一周有更新的商机。
ChatGPT:近一周更新的商机如下:
(图示有更新的商机列表)
李总:只看产品A的
ChatGPT:其中近一周有更新的有数的商机具体情况如下:
(图示近一周有更新的有数的商机列表)
ChatGPT会理解“只看产品A的”是在“近一周有更新”的基础上,利用了上文信息。
如果用GUI交互,一般需要在商机列表上方的筛选框中进行选择,效率不见得比说“只看产品A的”高。如果用命令行交互,一般需要用类似“list-pipeline --update-time -1w --product-line 产品A”这样的命令,需要同时输入更新时间和产品线筛选条件,显然效率低很多。
ChatGPT并不是仅仅用自然语言一比一替换命令行。
多重上下文
基于ChatGPT的交互的第三个优势是可以利用更早一些的上下文,进一步提高效率。如以下模拟了李总的继续对话:
李总:看下客户C
ChatGPT:客户C的具体信息如下:
(图示客户C的具体信息)
李总:再看下产品B的
ChatGPT:其中近一周有更新的产品B的商机具体情况如下:
(图示近一周有更新的产品B的商机列表)
ChatGPT会理解“再看下产品B的”还是在“近一周有更新”的基础上,利用了上文信息,但这个上下文并不是最近的上下文。
这是对话式交互相比GUI的显著优势。在GUI交互中,李总在查看客户A的具体信息时,通常已经进入到客户A的详情页面,这时如果李总想看产品B最近一周更新的商机,要回到上一个界面,在筛选条件中选择产品B才能完成。
智能求解
基于ChatGPT的交互的第四个优势,也是语言大模型特别强大的地方是它可以理解用户的意图,构思解决问题的思路,调用多项外部能力并进行分析然后提供答案。比如我们继续李总的对话:
李总:客户A对什么具体产品感兴趣
ChatGPT:需求:客户A感兴趣的具体产品
思路:看是否有具体产品标签,没有
思路:看是否有试用申请,没有
思路:看销售代表和客户A的跟进动态信息,发现有记录客户A的CIO王总对BI和大屏感兴趣
结论:客户A对BI和大屏感兴趣
具备通用智能能力的ChatGPT完全有能力做出这样的思考,并对信息进行总结来回答问题。参考ChatGPT发布插件机制后网上曝光的一些case,ChatGPT可以很聪明地利用外部能力来解决复杂问题。
对话即编程
基于ChatGPT的交互的第五个优势,也是语言大模型可能最强大的地方是提供了一个非常自然的编程能力,让普通用户也可以把常用的动作串成一段“脚本”方便后续使用。如用户可以告诉ChatGPT“近一周客户意向”命令要做以下动作:
查看最近一周更新的商机。
查看每条商机的客户意向。
对以上客户意向进行汇总。
后续李总说“近一周客户意向”时,ChatGPT就会按以上次序去执行各项操作并得出汇总结果。
这方面的思考具体可以参加我的公众号文章GPT-4革命:对话即编程,人人都是程序员?
我认为可以将命令行、GUI和对话三种交互方式的优缺点总结如下。对话式交互最突出的优势是智能性、可组合和个性化的能力、操作复杂应用时的效率。和GUI相比,对话式交互的主要缺点是学习成本稍高,易用性稍差,简单应用的效率低一些。总的来说,我认为软件越复杂,对话式交互的优势越明显。
交互方式 | 命令行 | GUI | 对话 |
---|---|---|---|
学习成本 | ★★★★★ | ★ | ★★ |
易用性 | ★ | ★★★★★ | ★★★★ |
交互效率(简单应用) | ★ | ★★★★★ | ★★★ |
交互效率(复杂应用) | ★★★★ | ★★★★ | ★★★★★ |
可组合&个性化 | ★★★★★ | ★ | ★★★★ |
智能性 | ★ | ★ | ★★★★★ |
对话式交互太具有革命性,体感非常强,价值非常显著,已经部署的企业会很希望对现有的软件进行升级,引入对话式交互功能,但这个过程往往会导致已有软件的大规模重新开发。
首先,引入对话式交互基本需要把前端重新开发一遍,因为现有的前端界面通常不能很好地嵌入到对话流中。
理论上讲,如果企业已经部署的软件进行了很好的中台化设计,把核心业务能力都沉淀在中台之中,并提供了很好的API,那么后端是可以不重新开发的。但实际上有大量的企业软件并没有这样的设计,前后端耦合、API缺失的现象大量存在,所以很多时候后端也可能需要重新开发。
因此,在新的交互范式出现时,现有的软件很可能都需要重新开发一遍。
上文主要讲了差旅和CRM的案例,再稍微展开说一下电商,目前在电商App上购物的效率其实是很低的,经常要看很多很多信息,进行对比,花很多时间才能选好买哪个。这个交互如果基于ChatGPT来设计,可能只需要勾选几个候选产品,然后让ChatGPT自动地去做分析给出对比报告,这就轻松多了。用户越是在使用产品时需要思考,ChatGPT的帮助就越大。
这将带来一次巨大的创新机会,但对现有业务来讲又是一次巨大的挑战。历史以来,从命令行到GUI,从Web到移动App,都是交互形态的改变,都会出现一大波新的机会,但同时也会有一大批旧时代的霸主被淘汰。这对任何的在位者来说都是巨大的挑战,如果行动迟缓,等到竞争对手探索出了新的产品交互形态,已有的产品都会被视作“上一个年代的老东西”而被用户抛弃。