NVIDIA Triton系列01-应用概论

推理识别是人工智能最重要的落地应用，其他与深度学习相关的数据收集、标注、模型训练等工作，都是为了得到更好的最终推理性能与效果。

几乎每一种深度学习框架都能执行个别的推理工作，包括 Tensorflow、Pytorch、MXNet 等通用型框架与 YOLO 专属的 Darknet 框架，此外还有 ONNX 开发推理平台、NVIDIA TensorRT 加速推理引擎，也提供推理相关的 C / C++ 与 Python 开发接口，这是大部分技术人员所熟悉的方法。

在垂直应用方面，NVIDIA 的 DeepStream 智能分析工具是非常适合用在种类固定且需要长期统计分析的场景，包括各种交通场景的人 / 车流量分析、工业流水线质量检测等应用，并且在早期视觉（Visualization）类推理功能之上，再添加对话（Conversation）类推理功能，让使用范围更加完整。

上述的推理方式通常适合在识别固定种类与固定输入源的使用场景，在交通、工业自动化领域、无人设备等领域的使用比较普及。

但是这种方式并不适合在网络相关的服务类应用中使用，包括在线的产品推荐、图像分类、聊天机器人等应用，因为在线服务需要同时面对未知数量与类型的数据源，并且透过 HTTP 协议进行数据传输的延迟问题，也是严重影响用户体验感的因素，这是绝大部分网路服务供应商要导入 AI 智能识别技术所面临的共同难题。

NVIDIA Triton 推理服务器的最大价值，便是为服务类智能应用提供一个完整的解决方案，因此首先需要解决以下的三大关键问题：

1. 高通用性：

(1) 广泛支持多种计算处理器：包括具备 NVIDIA GPU 的 x86 与 ARM CPU 设备，也支持纯 CPU 设备的推理计算。

(2) 广泛支持各种训练框架的文件格式：包括 TensorFlow 1.x/2.x、PyTorch、ONNX、TensorRT、RAPIDS FIL（用于 XGBoost、Scikit-learn Random Forest、LightGBM）、OpenVINO、Python 等。

(3) 广泛支持各种模型种类：包括卷积神经网络 (CNN)、循环神经网络 (RNN)、决策树、随机森林和图神经网络等算法。

2.部署便利：

(1) 可在横向扩展的云或数据中心、企业边缘，甚至 NVIDIA Jetson 等嵌入式设备上运行。

(2) 支持用于 AI 推理的裸机和虚拟化环境，包括 VMware vSphere 与基于 Docker 技术的 Kubernetes 管理机制。

(3) 可托管于多种人工智能云平台，包括 Amazon SageMaker、Azure ML、Google Vertex AI、阿里巴巴 AI、腾讯 TI-EMS 等平台。

3.性能优化：

(1)动态批量处理：推理优化的一个因素是批量大小，或者您一次处理多少个样本，GPU 以更高的批量提供高吞吐量。然而，对于实时应用程序，服务的真正限制不是批量大小甚至吞吐量，而是为最终客户提供出色体验所需的延迟。

(2)模型并发执行：GPU 是能够同时执行多个工作负载的计算设备，NVIDIA Triton 推理服务器通过在 GPU 上同时运行多个模型来最大限度地提高性能并减少端到端延迟，这些模型可以是相同的，也可以是来自不同框架的不同模型。GPU 内存大小是同时运行模型数量的唯一限制，这会影响GPU利用率和吞吐量。

以上是 NVIDIA Triton 推理服务器的基本特性说明，要满足上面所列的特性，是相对复杂的内容，这是本系列文章所要为读者逐一探索的内容，不过在讲解技术内容之前，我们可以先看看有哪些比较具有代表性成功案例，能让大家对于 Triton 推理服务器的使用场景有更进一步的了解。

案例1：微软 Teams 会议系统使用 Triton 提升生成实时字幕和转录性能

微软 Teams 是全球沟通和协作的重要工具，每月有近 2.5 亿活跃用户，其 Azure 认知服务提供 28 种语言的字幕和转录，实时字幕功能帮助与会者实时跟踪对话，转录功能方便与会者在日后回顾当时的创意或回看未能参与的会议，实时字幕对聋哑人、听力障碍者，或者异国与会者特别有用。

底层语音识别技术作为认知服务中的一个 API，开发人员可以使用它定制和运行自己的应用程序，例如客服电话转录、智能家居控制或为急救人员提供 AI 助手。认知服务会生成 Teams 的转录和字幕，将语音转换为文本，并识别说话人。同时也能够识别专业术语、姓名和其他会议背景，提高字幕的准确性。

微软 Teams 首席项目经理 Shalendra Chhabra 表示：“这样的 AI 模型非常复杂，需要数千万个神经网络参数才能识别几十种不同的语言。但模型越大，就越难以经济高效地实时运行。”

为了提高服务质量，微软使用 NVIDIA Triton 开源推理服务软件，来帮助 Teams 使用认知服务优化语音识别模型，以及认知服务所支持的高度先进语言模型，在极低的延迟状态下提供高度准确、个性化的语音转文本结果，同时可以保证运行这些语音转文本模型的 NVIDIA GPU 充分发挥计算资源，在消耗更少计算资源的同时为客户提供更高的吞吐量，进而降低成本。

NVIDIA GPU 和 Triton 软件能够帮助微软，在不牺牲低延迟的情况下，通过强大的神经网络，实现高准确性，确保语音-文本的实时转换，当启用转录功能时，与会者可以在会议结束后轻松补上错过的内容。

Triton 推理服务器有助于简化 AI 模型部署并解锁高性能推理，用户甚至可以为自己的应用开发自定义后端。下面三种关键功能，是协助微软将 Teams 的字幕和转录功能扩展到更多会议和用户的效能：

流推理：新型流推理功能—通过跟踪语音上下语境，提高延迟、敏感性字幕的准确度，协助 Azure 认知服务合作定制语音转文本的应用程序。

动态批量处理：批量大小指神经网络同时处理的输入样本数量，通过 Triton 的动态批量处理功能，单项推理请求被自动组合成一个批次，因此能够在不影响模型延迟的情况下更好地利用 GPU 资源。

并发模型执行：实时字幕和转录需要同时运行多个深度学习模型，Triton 使开发人员能够在单个 GPU 上同时完成这些工作，包括使用不同深度学习框架的模型。

案例2：Triton 助力微信加速视觉应用，提高可靠性

本案例中，通过 NVIDIA 的 GPU 执行 Triton 推理服务器与 TensorRT 推理加速引擎，帮助微信的二维码光学识别（OCR）计算降低 46% 时间，并将系统的失败率降低 81%，同时减少 78% 的服务器使用数量。

腾讯微信是一款跨平台的通讯工具，支持通过手机网络发送语音、图片、视频和文字等。截至 2021 年 6 月，微信在全球拥有超过 12 亿活跃用户，是国内活跃用户最多的社交软件。

微信识物是一款主打物品识别的 AI 产品，通过相机拍摄物品，更高效、更智能地获取信息。2020 年微信识物拓展了更多识别场景，上线了微信版的图片搜索，打开微信扫一扫，左滑切换到 “识物” 功能，对准想要了解的物品正面，可以获取对应的物品信息，包括物品百科、相关资讯、相关商品。

2021 年 1 月，微信发布的 8.0 版本更新支持图片文字提取的功能，用户在聊天界面和朋友圈中长按图片就可以提取图片中文字，然后一键转发、复制或收藏。

在识物的过程包含检测、图像召回、信息提炼等环节，其中二维码扫描的使用频率也是非常高，主要包括识别和检测，这两种应用都有非常大的计算量。但原本使用 Pytorch 进行模型的推理时，遇到以下三大问题：

请求的延迟很大，影响用户体验感；

显存占用很大，单张 NVIDIA T4 GPU 卡能部署的模型数比较少，导致推理请求的并发数上不去，请求失败的概率太高，只能通过增加机器的方式来提高并发能力，业务部署成本较高。

使用的模型经常变化，而业务需要更换后的模型需要能够快速地加速和上线部署。

为了解决上述问题，微信团队使用 Triton 推理服务器结合 TensorRT 加速推理器的综合方案，主要技术内容如下：

通过使用 TensorRT 对微信识物和 OCR 的模型进行加速，在都使用 FP32 的情况下，比 Pytorch 的延迟降低 50% 左右；

在 OCR 的识别和检测阶段，使用 TensorRT 结合 NVIDIA T4 GPU 的 FP16 Tensor Core，在保证精度的前提下，识别的延迟降低 50%、检测的延迟降低 20%；

在微信识物的分类和检测任务中，通过使用 NVIDIA T4 GPU 的 int8 Tensor Core 并结合 QAT，在满足精度要求的前提下，进一步大幅提升了性能；

通过使用 FP16 和 int8 低精度模式，在大幅降低推理延迟的同时，大大减少了显存的占用，在 FP16 模式下，单模型显存占用仅占 FP32 模式的 40%–50%，而在 int8 模式下，单模型显存占用仅占 FP32 模式的 30% 左右。在提高单张 T4 卡上部署的模型数量的同时，大幅提高了单 GPU 的推理请求并发能力；

Triton 的动态批量处理（dynamic batch）和多实例等特性，帮助微信将在满足延迟要求的同时，提高了系统整体的并发能力，将系统失败降低了 81%；

TensorRT 对个别模型得到推理的加速，Triton 则对加速后的模型进行快速的部署，满足了业务对修改后的模型进行快速部署的需求，也大大减少工程人员的工作量。

通过使用 NVIDIA 的 TensorRT 对微信识物和 OCR 的模型进行加速，在降低单次推理延迟 50% 以上的同时**，节约了多达 64% 的显存**。结合 Triton 的动态批量处理和多实例的功能，OCR 的整体时延降低了 46%，系统失败率降低了 81%。大大提高了用户的体验，并且服务器的数量减少了多达 78%，极大降低了服务的成本。

案例3：腾讯 PCG 使用 Triton 加速在线推理，提高设备效能

腾讯平台与内容事业群（简称腾讯 PCG）负责公司互联网平台和内容文化生态融合发展，整合 QQ 软件、QQ 空间等社交平台，和应用宝、浏览器等流量平台，以及新闻资讯、视频、体育、直播、动漫、影业等内容业务，推动 IP 跨平台、多形态发展，为更多用户创造海量的优质数字内容体验。

腾讯 PCG 机器学习平台部旨在构建和持续优化符合 PCG 技术中台战略的机器学习平台和系统，提升 PCG 机器学习技术应用效率和价值，建设业务领先的模型训练系统和算法框架，提供涵盖数据标注、模型训练、评测、上线的全流程平台服务，实现高效率迭代，在内容理解和处理领域，输出业界领先的元能力和智能策略库。

这个机器学习平台服务于 PCG 所有业务产品，面对上述所提到的综合需求，有以下三大挑战：

1. 业务繁多，场景复杂**：**

(1) 业务开发语言包括 C++ 与 Python；

(2)模型格式繁多，包括 ONNX、Pytorch、TensorFlow、TensorRT 等；

(3)模型预处理涉及图片下载等网络 io；

(4)多模型融合流程比教复杂，涉及循环调用；

(5)支持异构推理；

2.模型推理结果异常时，难以便利地调试定位问题；

3.需要与公司内现有协议 / 框架 / 平台进行融合。

基于以上挑战，腾讯 PCG 选择了采用 NVIDIA 的 Triton 推理服务器，以解决新场景下模型推理引擎面临的挑战，在提升用户研效的同时，也大幅降低了服务成本。

NVIDIA 的 Triton 推理服务器是一款开源软件，对于所有推理模式都可以简化在任一框架中以及任何 GPU 或 CPU 上的运行方式，从而在生产环境中使用推理计算，并且支持多模型 ensemble，以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架，可以很好的支持多模型联合推理的场景，构建起视频、图片、语音、文本整个推理服务过程，大大降低多个模型服务的开发和维护成本。

通过将 Triton 编译为动态链接库，可以方便地链入公司内部框架，对接公司的平台治理体系，符合 C 语言规范的 API 也极大降低了用户的接入成本，借助 Python 后端和自定义后端，用户可以自由选择使用 C++ 或 Python 语言进行二次开发。

NVIDIA DALI 是 GPU 加速的数据增强和图像加载库，使用 Triton 的 DALI 后端可以替换掉原来的图片解码、缩放等操作，Triton 的 FIL 后端可以替代 Python XGBoost 模型推理，进一步提升服务端推理性能。

借助 NVIDIA Triton 推理框架，配合 DALI / FIL / Python 等后端与 TensorRT，整体推理服务的吞吐能力最大提升 6 倍，延迟最大降低 40%。帮助腾讯 PCG 各业务场景中，以更低的成本构建了高性能的推理服务，同时更低的延迟降低了整条系统链路的响应时间，优化了用户体验，也降低了 20%-66% 总成本。

透过以上三个成功案例，就能很明显看出，Triton 推理服务器在面对复杂的智能识别应用场景时，能发挥非常有效的整合功能，特别是模型来自不同训练平台时，以及面对不同前端开发语言时，更能体现其便利性。

在后面的文章会带着大家，先从宏观的角度来了解 Triton 推理服务器的应用架构以及所需要的配套资源，接着搭建 Triton 的使用环境，包括建立模型仓、安装服务端/用户端软件，然后执行一些实用性强的基础范例，以及结合 NVIDIA 的 TensorRT 与 DeepStream 等推理工具，让更多开发人员能利用 Triton 整合更多 AI 推理资源。