介绍:
GitHub - ztxz16/fastllm: 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行 - ztxz16/fastllmhttps://github.com/ztxz16/fastllm/
fastllm是纯c++实现,无第三方依赖的高性能大模型推理库
6~7B级模型在安卓端上也可以流畅运行