【多模态大模型论文精读】MOSHI：双工实时语音对话大模型

写在前面

大型语言模型（LLM）的飞速发展，让人机对话变得越来越自然流畅。从 Alexa、Siri 到 Google Assistant，语音助手已经成为我们生活中不可或缺的一部分。然而，这些看似智能的对话系统，背后却隐藏着一个“致命”的缺陷——它们无法像人类一样进行实时的、全双工的对话。

传统的人机对话系统，通常采用“回合制”的交互模式：用户说一句，系统处理一句，然后再回复一句。这种模式导致了几个问题：

高延迟：系统需要等待用户说完一整句话，才能开始处理和生成回复，导致对话的延迟很高，通常需要几秒钟。
信息丢失：语音中的非语言信息（如情感、语气、非语言声音等）在文本转换过程中会丢失，导致系统无法理解用户的真实意图。
缺乏交互性：系统无法处理重叠语音、打断、插话等真实对话中常见的现象，使得对话显得生硬、不自然。

为了解决这些问题，来自 Kyutai 实验室的研究人员提出了 MOSHI，一个全新的语音-文本基础模型，旨在实现真正意义上的实时、全双工对话。

MOSHI：实现实时全双工对话

MOSHI 的核心思想是，将语音对话视为一个语音到语音的生成任务，而不是传统的“语音-文本-语音”的流水线模式。这意味着 MOSHI 直接从输入的语音信号中提取信息，并直接生成语音信号作为输出，从而避免了中间文本转换带来的延迟和信息丢失。

为了实现这一目标，MOSHI 采用了以下几个关键的创新设计：

1. 多模态模型架构：Helium + Mimi + Depth Transformer

MOSHI 的整体架构可以分为三个主要部分：

Helium：一个 7B 参数的文本语言模型，负责处理文本信息，提供强大的语言理解和推理能力。Helium 是从头开始训练的，使用了高质量的文本数据，包括 Wikipedia、Stack Exchange、科学论文以及经过筛选的 Common Crawl 网页数据。
Mimi：一个神经音频编解码器，负责将原始音频信号转换为离散的音频 token，以及将音频 token 解码回音频信号。Mimi 的创新之处在于，它将语义信息和声学信息融合到同一个 tokenizer 中，通过残差向量量化（RVQ）和知识蒸馏技术，实现了低比特率下的高质量音频重建。
Depth Transformer：一个分层的、流式的 Transformer 模型，负责联合处理文本 token 和音频 token，实现语音到语音的生成。Depth Transformer 的创新之处在于，它采用了多流（multi-stream）架构，可以同时处理来自用户和系统自身的音频流，从而实现了全双工对话。此外，它还引入了“内心独白”（Inner Monologue）机制，将系统生成的文本 token 作为音频 token 的前缀，提高了生成语音的语言质量。

在这里插入图片描述

这三个部分协同工作，构成了 MOSHI 的强大能力：

Helium 提供了强大的文本理解和生成能力，为对话提供了坚实的语义基础。
Mimi 实现了高效的音频编码和解码，为实时语音交互提供了技术保障。
Depth Transformer 将文本和音频信息融合在一起，实现了真正的语音到语音的对话生成。

2. 预训练：从无监督数据中学习语音的奥秘

MOSHI 的预训练分为两个阶段：

Helium 预训练：首先，研究人员使用大量的文本数据对 Helium 进行预训练，使其掌握基本的语言知识和推理能力。
MOSHI 音频预训练：然后，研究人员使用 700 万小时的无监督音频数据（大部分是英语语音）对 MOSHI 进行预训练。在这个阶段，MOSHI 学习如何从原始音频信号中提取语义和声学信息，并生成高质量的音频。

预训练阶段的关键在于，研究人员使用了无监督的数据。这意味着 MOSHI 不需要标注好的语音-文本对，就可以学习到语音的内在结构和规律。这大大降低了数据收集和标注的成本，也使得 MOSHI 可以利用更大规模的音频数据进行训练。

3. 后训练：赋予 MOSHI 真正的对话能力

预训练阶段的 MOSHI 已经具备了基本的语音生成能力，但还不能进行真正的对话。为了让 MOSHI 掌握对话的技巧，研究人员进行了以下几个阶段的后训练：

多流后训练：使用经过语音活动检测（VAD）处理的无监督音频数据，将原始音频流分割成两个流：一个代表主讲者（MOSHI），另一个代表其他说话者。这使得 MOSHI 能够学习如何同时处理来自用户和自身的音频流。
Fisher 数据集微调：使用 Fisher 数据集（包含 2000 小时的电话对话）对 MOSHI 进行微调，使其能够学习真实的对话动态，如重叠语音、打断等。
指令微调：使用合成的语音数据对 MOSHI 进行指令微调，使其能够理解用户的指令，并生成符合要求的回复。这些指令包括改变说话风格、模仿特定声音、回答特定问题等。

后训练阶段的关键在于，研究人员使用了多流的训练数据，以及合成的指令数据。这使得 MOSHI 能够学习到真实的对话动态，并具备了根据指令进行对话的能力。

4. 推理：实时、流畅、自然的对话体验

经过预训练和后训练的 MOSHI，已经具备了实时、全双工对话的能力。在推理阶段，MOSHI 的工作流程如下：

接收输入：MOSHI 同时接收来自用户和自身的音频流。
编码：Mimi 将原始音频信号转换为离散的音频 token。
生成：Depth Transformer 根据当前的上下文（包括文本 token 和音频 token），生成下一个时刻的音频 token。
解码：Mimi 将生成的音频 token 解码回音频信号。
输出：MOSHI 输出生成的音频信号，用户可以听到 MOSHI 的回复。

这个过程是实时的，因为 MOSHI 可以在接收到一部分音频信号后，立即开始生成回复，而不需要等待用户说完一整句话。这个过程也是全双工的，因为 MOSHI 可以同时处理来自用户和自身的音频流，从而实现了真正的双向交互。

MOSHI 的创新点：超越传统

MOSHI 的创新之处在于，它打破了传统人机对话系统的“回合制”模式，实现了真正意义上的实时、全双工对话。具体来说，MOSHI 的创新点包括：

1. 语音到语音的生成

MOSHI 直接从输入的语音信号中提取信息，并直接生成语音信号作为输出，避免了中间文本转换带来的延迟和信息丢失。这是 MOSHI 实现实时对话的关键。

2. 多流架构

MOSHI 采用了多流架构，可以同时处理来自用户和自身的音频流。这使得 MOSHI 能够处理重叠语音、打断、插话等真实对话中常见的现象，从而实现了全双工对话。

3. “内心独白”（Inner Monologue）

MOSHI 将系统生成的文本 token 作为音频 token 的前缀，这相当于让 MOSHI 在“说话”之前先在“心里”想好要说什么。这提高了生成语音的语言质量，使得对话更加自然流畅。

4. 低延迟

MOSHI 的设计目标之一是实现低延迟的对话。通过采用流式的音频编解码器和分层的 Transformer 模型，MOSHI 的理论延迟仅为 160 毫秒，实际延迟约为 200 毫秒，远低于传统人机对话系统的延迟。

5. 多模态

MOSHI 可以同时处理文本和音频信息，这使得它可以理解语音中的非语言信息，如情感、语气等。此外，MOSHI 还可以生成带有情感、语气和特定声音的语音，使得对话更加生动有趣。

深入探索 MOSHI 的技术细节

下面我们深入探讨 MOSHI 的几个关键技术细节：

1. Mimi：语义和声学信息的融合

Mimi 是 MOSHI 的神经音频编解码器，它的核心思想是，将语义信息和声学信息融合到同一个 tokenizer 中。传统的神经音频编解码器，通常只关注声学信息的重建，而忽略了语义信息。这导致生成的音频虽然听起来很清晰，但可能缺乏语义上的连贯性。

Mimi 通过以下两种方式将语义信息融入到音频 token 中：

残差向量量化（RVQ）：Mimi 使用 RVQ 将音频信号转换为离散的 token。RVQ 的基本思想是，将一个向量分解成多个残差向量的和，每个残差向量都从一个码本中选取。Mimi 使用了 8 个量化器，每个量化器都有一个包含 2048 个码向量的码本。
知识蒸馏：Mimi 将一个预训练的自监督语音模型（WavLM）的语义信息蒸馏到第一个量化器中。具体来说，Mimi 将 WavLM 的输出作为目标，训练第一个量化器来预测 WavLM 的输出。这使得第一个量化器的输出不仅包含了声学信息，还包含了语义信息。

通过这两种方式，Mimi 实现了低比特率下的高质量音频重建，同时保留了语义信息。这为 MOSHI 的语音生成奠定了基础。

2. Depth Transformer：分层、流式的 Transformer 模型

Depth Transformer 是 MOSHI 的核心组件，它负责联合处理文本 token 和音频 token，实现语音到语音的生成。Depth Transformer 的创新之处在于，它采用了分层和流式的设计。

分层：Depth Transformer 由两个 Transformer 模型组成：一个 Temporal Transformer 和一个 Depth Transformer。Temporal Transformer 处理较长时间尺度的信息，生成一个上下文向量；Depth Transformer 处理较短时间尺度的信息，根据上下文向量生成具体的 token。这种分层设计可以减少计算量，提高模型的效率。

流式：Depth Transformer 的设计是流式的，这意味着它可以实时地处理输入和输出。具体来说，Depth Transformer 的每个时间步只需要处理一小段音频信号（80 毫秒），就可以生成相应的音频 token。这使得 MOSHI 可以实现低延迟的对话。

3. “内心独白”（Inner Monologue）：提高语言质量

“内心独白”是 MOSHI 的一个关键创新。它的基本思想是，让 MOSHI 在“说话”之前先在“心里”想好要说什么。具体来说，MOSHI 将系统生成的文本 token 作为音频 token 的前缀，这相当于给音频生成提供了一个“草稿”。

“内心独白”的实现方式是，在训练过程中，MOSHI 同时预测文本 token 和音频 token。在推理过程中，MOSHI 首先生成文本 token，然后根据生成的文本 token 生成音频 token。这使得 MOSHI 生成的语音不仅在声学上听起来自然，而且在语义上也更加连贯。

4. 多流架构：实现全双工对话

MOSHI 的多流架构是实现全双工对话的关键。传统的人机对话系统，通常只处理一个音频流（来自用户的输入）。这导致系统无法处理重叠语音、打断等现象。

MOSHI 的多流架构可以同时处理来自用户和自身的音频流。具体来说，MOSHI 将两个音频流分别编码成两个独立的 token 序列，然后将这两个序列拼接在一起，输入到 Depth Transformer 中。这使得 MOSHI 能够同时“听”和“说”，从而实现了全双工对话。

MOSHI 的实验结果：令人印象深刻

研究人员对 MOSHI 进行了全面的评估，包括文本理解、语音生成、对话质量等多个方面。实验结果表明，MOSHI 在多个方面都取得了显著的成果：

1. 文本理解

MOSHI 的文本理解能力与同等规模的文本语言模型相当，甚至在某些任务上表现更好。这表明 MOSHI 的多模态训练并没有损害其文本理解能力。

2. 语音生成

MOSHI 的语音生成质量显著优于现有的语音生成模型。MOSHI 生成的语音不仅听起来自然、清晰，而且语义连贯，情感丰富。

3. 对话质量

MOSHI 的对话质量得到了人工评估的认可。MOSHI 可以进行流畅、自然的对话，能够处理重叠语音、打断等现象，并且能够根据用户的指令改变说话风格。

4. 延迟

MOSHI 的理论延迟仅为 160 毫秒，实际延迟约为 200 毫秒，远低于传统人机对话系统的延迟。这使得 MOSHI 可以实现真正的实时对话。

5. 鲁棒性

研究人员还对Moshi的鲁棒性进行了测试，包括在噪声、混响等环境下的表现，以及对不同说话人、不同口音的适应能力。实验结果表明，Moshi在各种条件下都能保持较好的性能。
此外，研究人员还探索了Moshi在语音识别（ASR）和语音合成（TTS）方面的应用。通过简单地调整文本和音频token之间的延迟，Moshi可以实现流式的ASR和TTS功能。

MOSHI 的局限性和未来展望

尽管 MOSHI 取得了显著的成果，但它仍然存在一些局限性：

数据依赖：MOSHI 的性能高度依赖于训练数据的质量和数量。虽然 MOSHI 使用了大量的无监督数据，但仍然需要一定数量的高质量对话数据进行微调。
计算资源：MOSHI 的训练需要大量的计算资源。虽然 MOSHI 的推理延迟较低，但训练成本仍然较高。
可控性：MOSHI 的生成过程是端到端的，这意味着很难对生成的内容进行精确的控制。虽然 MOSHI 可以根据指令改变说话风格，但仍然难以控制生成内容的具体细节。
安全性：生成模型存在安全性风险，比如可能生成不当内容。