代码仓库
大模型训练完之后,怎么知道其回答质量好不好,或者是不是可用的,这就需要我们对大模型进行评测,评测集的制定显得尤为重要。
收集相关数据,我们可以对评测集分为主观题和客观题,这些题目尽可能的包括模型的不同能力,比如情感分析、语义匹配、开放域问答、知识库问答、推理计算等等。那么如何对于主观题和客观题进行评估?下图来给你直观的解释:
对于客观题,我们使用acc来进行评估,制定好的prompt,例如:你是法律领域的专家,请根据你的经验,从下面的答案中挑选正确的选项。请注意你只需要给出选项,不需要任何的额外解释。
response = model.chat()
response为模型输出的正确答案选项,拿这个选项和正确答案进行对比进而计算acc。
对于主观题,我们使用GPT4.0从多个方面进行打分,制定好prompt,例如:请你参考标准答案,对模型答案从完整性进行打分,分数范围为1.0-5.0之间,保留2位小数。
response = model.chat()
response为GPT输出的分数。