由于大量的量化模型没有精度数据,为了让用户更好地找到适配自己的模型或量化算法,最近推出了低比特大模型排行版,评估的指标主要涵盖10个zero shot的任务,如果有什么建议或者意见可以去社区提~目前支持13B以下模型的评估,后面可能随着计算资源的提升会增加模型覆盖的范围。
另外我们最近也发布了[AutoRound](https://github.com/intel/auto-round) V0.2,其中做了若干更新,包括对lm-head量化的支持,可以使得llamav3-8b的W4G128从5.4G降到4.7G,另外也可以做混合bit或者混合group_size的量化和推理,另外最近的更新我们修复了asym kernel的问题,2bit的精度和少数4bit的实测精度有了大量的提升。
在低比特排行榜中,AutoRound在大部分场景中表现都可以
另外我们在2bit中也表现不俗,当然诚实地讲,我们测出AutoRound在llama3中表现还不太满意,目前正在看