2024小红书大模型论文分享
BatchEval基于LLM评估LLM生成文本的质量 ACL2024
https://ypw0102.github.io/
如果文本评价需要多个维度,需要调整BatchEval么?
目前是完整流程走一遍的,因此没有具体考虑细粒度。
评测连续的数据域,SC的具体作用,BatchEval后面有公式的推导。
大模型评估-在监督信号匮乏的情况下评估LLM
什么样子的模型是强模型? 是一个直观比较的结果:Acc在这个任务上越好,则认为它越强。
随着各大机构的模型越来越强,评估任务越来越复杂,如何在未来更加复杂的任务下评估LLM的能力。
大模型推理能力蒸馏-利用负样本促进LLM推理能力的蒸馏
思维链蒸馏
自增强(包括自蒸馏)
自扩充
NAT,negative traing
UL 非似然损失
负样本对于LLM蒸馏是有益处的。
负向校准增强。
NCE
SCA
方法在不同LLM上的泛化性质如何? 目前主流的模型都是OK的。
不同的参数都需要实验。
基于LLM的笔记内容表征推荐系统
LLM目前的研究热点?
yuanpeiwen:
1、低资源高效的LLM(用于推理、评测;降本增效)
wangxinglin
1、
liyiwei
1、与人类对其
2、多模态
zhangchao
1、推荐算法(LLM的模型相比于传统模型会有非常显著的提升)