📖标题:Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
🌐来源:arXiv, 2410.13788
🌟摘要
🔸大型语言模型(LLM)必须经常对高度模糊的用户请求做出响应。在这种情况下,LLM的最佳回应可能是提出一个澄清问题,以获取更多信息。我们观察到,现有的LLM通常会对这种模棱两可的请求进行单一解释,这会让想要不同解释的用户感到沮丧。我们推测这是由于当前的偏好数据标记实践造成的,在这种实践中,LLM反应仅在其先前的背景下进行评估。
🔸为了解决这个问题,我们建议通过模拟偏好标签在未来回合中的预期结果来分配偏好标签。这使得LLM能够学会提出澄清性问题,从而在未来的回合中为每个用户的解释量身定制答案。在开放域QA的实验中,我们将使用我们提出的偏好标记方法训练的系统与仅基于先前上下文分配偏好的标准方法进行了比较。
🔸我们根据系统提出澄清问题的能力来评估系统,这些问题可以恢复每个用户的解释和预期答案,并发现我们提出的方法训练LLM提出澄清问题,与每个查询的不同解释的答案集相比,F1提高了5%。
🛎️文章简介
🔸研究问题:当前大语言模型(LLM)在面对模糊请求时,偏向直接回答而不是提出澄清问题。
🔸主要贡献:论文提出了一个自动评估框架和双轮偏好标注方法,使模型更智能地决定何时提出澄清问题。
📝重点思路
🔺相关工作
🔸NLP的歧义:研究发现这些分歧往往是输入中含糊不清,最近的工作研究了歧义的各种来源,从实体链接、共指歧义到时间和地理背景。
🔸LLM的不确定性:最近的工作研究了LLM的校准,特别关注RLHF的训练效果,发现了标准单轮RLHF训练鼓励LLM反应过度自信。
🔸澄清问题生成:先前工作集中于任务固定所需澄清类型的设置,并可通过模拟对话进行训练。
🔺论文方案
🔸双轮偏好数据生成:标注者首先对输入查询提供多个候选澄清问题和直接回答,模型利用这些信息产生输出,标注者根据输出的好坏来构建偏好。
🔸用户模拟交互:为了生成偏好数据,论文使用了用户模拟交互的方法,而不是依赖于真实用户,这样可以更高效地生成大量标注数据。
🔸模型微调:使用监督微调(SFT)和基于人类偏好的强化学习(RLHF)来训练LLM,使其能够提出澄清问题。
🔸模型评估:开发了一个自动评估框架,通过模拟用户交互来评估LLM在开放域问答任务中的表现。
🔎分析总结
🔸双轮偏好标注的有效性:实使用双轮偏好标注方法训练的模型,在开放领域问答任务中的表现优于使用标准单轮偏好标注方法训练的模型。
🔸澄清问题的决策:训练后的模型能够更明智地决定何时提出澄清问题,从而在模糊和非模糊查询中都能取得更好的效果。
🔸联合模型的性能:尽管使用单一LLM处理澄清和回答任务会导致整体性能下降,但仍能保留大部分性能提升,表明这种方法在某些情况下是可行的。
🔸未来研究方向:当前研究仅限于一至两轮交互,未来可以探索扩展到多轮交互的方法,以及如何结合其他对话行为策略。
💡个人观点
论文的核心是通过构建不同的澄清话术,评估模型响应的质量,从而让模型学会使用更好的澄清提问。
🧩附录