Mistral 7B 论文学习
Mistral 7B
论文链接 https://arxiv.org/abs/2310.06825
代码: https://github.com/mistralai/mistral-src
网站: https://mistral.ai/news/announcing-mistral-7b/
论文摘要
Mistral 7B是一个70亿参数的语言模型,旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型(Llama 2),在推理、数学和代码生成方面也优于最好的发布34B模型(Llama 1)。Mistral 7B模型利用分组查询注意力(GQA)进行更快的推理,再加上滑动窗口注意力(SWA),在降低推理成本的情况下有效处理任意长度的序列。Mistral 7B提供了一个根据说明进行微调的模型,Mistral 7B–Instruction,它在人类和自动基准测试上都超过了Llama 2 13B–聊天模型。Mistr