- 项目应用场景
-
- 面向 Windows 平台部署 RAG 检索增强生成聊天机器人场景,项目采用 TensorRT-LLM 进行 GPU 加速推理,注意项目需要 RT4090 及以上的英伟达显卡支持。
- 项目效果
- 项目细节 ==> 具体参见项目
README.md
-
- (1) 下载构建好的 Llama2 TensorRT 模型到指定文件夹,具体见
README
- (2) 安装依赖
- (1) 下载构建好的 Llama2 TensorRT 模型到指定文件夹,具体见
pip install -r requirements.txt
-
- (3) 执行程序
python app.py --trt_engine_path <TRT Engine folder> --trt_engine_name <TRT Engine file>.engine --tokenizer_dir_path <tokernizer folder> --data_dir <Data folder>
- 项目获取
-
- https://download.csdn.net/download/weixin_42405819/89107577