随着全球化的浪潮,跨语言沟通的需求日益增长。视频,作为一种生动直观的表达方式,也越来越需要跨越语言的障碍,触达更广泛的受众。因此,视频翻译成为了一个重要的领域,为不同语言背景的人们打开了理解彼此、共享信息和文化的窗口。 而随着大模型的进展,视频翻译领域迎来了新的突破。大模型的强大语言理解能力和生成能力,可以更精准地识别音频内容,并生成更加自然流畅的翻译文本。它还能根据不同语境和风格,调整翻译结果,使最终的视频翻译更贴近原视频的表达。海外大模型产品 ChatGPT、Google Gemini、Claude、Bard 等,以及国内百度 Gemini、阿里通义千问、华为盘古等模型,都在不断发展,为视频翻译提供了强大的助力。与传统翻译方法相比,大模型翻译在准确性、流畅性、速度和易用性等方面都具有显著优势。 本文将简单梳理视频翻译的主要步骤,包括音频识别、文本翻译、文本转语音以及视频合成等关键环节,重点探讨大模型技术在视频翻译中的应用,例如语音识别精度、文化差异以及版权问题等,以及它如何帮助提升翻译质量和效率。
视频翻译的基本步骤
1. 音频提取: 将视频文件中的音频部分分离出来,以便进行下一步的语音识别。通常使用视频编辑软件或专门的音频提取工具完成。 2. 音频识别 (ASR): 使用自动语音识别技术将音频转换为文本。当前主流的 ASR 技术基于深度学习模型,可以识别多种语言和方言。
-
工具: 剪映、Google Cloud Speech-to-Text,Amazon Transcribe,AssemblyAI 等。
3. 文本翻译: 将识别出的文本翻译成目标语言。大模型技术在文本翻译方面展现出显著优势,可以提供更准确、更流畅的翻译结果。
-
工具: 阿里云翻译、Google Translate API,DeepL API,OpenAI API 等。
4. 文本转语音 (TTS): 将翻译后的文本转换成目标语言的音频。目前 TTS 技术可以生成自然流畅的语音,使翻译后的视频更加真实。
-
工具: 魔音工坊、Google Cloud Text-to-Speech,Amazon Polly,Microsoft Azure Text-to-Speech 等。
5. 视频合成: 将翻译后的音频与原视频画面同步,合成新的视频文件。需要使用视频编辑软件,例如剪映、Adobe Premiere Pro,Final Cut Pro,DaVinci Resolve 等。 需要注意的是,音频识别结果的准确性会影响文本翻译的质量,而文本翻译的流畅性会影响 TTS 生成的语音效果。此外,根据不同的视频类型和目标受众,还需要进行一些调整,例如添加字幕、进行配音等。
光学字符识别 (OCR) 的应用 除了使用自动语音识别 (ASR) 从音频中提取文字,我们还可以使用光学字符识别 (OCR) 从视频画面中提取文字。OCR 技术可以识别图像中的文字,并将其转换为可编辑的文本。对于包含字幕、片头片尾字幕、文字标语等内容的视频,使用 OCR 技术可以更高效地提取文字信息。以下是一些情况可能需要使用 OCR:
-
视频中包含字幕,而音频识别可能无法准确识别,尤其是电影、电视剧、综艺等节目,背景声音干扰严重。
-
视频中包含文字标语、旁白字幕、片头片尾字幕等内容,这些内容可能无法通过音频识别获取。
使用大模型提高视频翻译准确性的 4 个技巧
技巧 1:使用大模型对 ASR 的文本进行校准
ASR 技术虽然发展迅速,但容易受噪音、口音、语速等因素影响,导致识别错误。选择合适的模型、降低噪音、使用清晰语言和人工校对可以提高准确性。大模型技术的应用可以进一步提升 ASR 的识别能力,为视频翻译带来更多可能性。 大模型可以利用其强大的语言理解能力,对 ASR 识别出的文本进行校对和修正。它可以识别出一些错误的单词或句子,并根据上下文进行修正,提高文本的准确性。例如,可以识别出一些口语化的表达,并将其转换为更正式的书面语言,或者识别出一些重复或不必要的词语,并进行删除。 以下是用大模型进行原文校准的结果,对于提升翻译准确度,非常有效,已经应用到我们鬼手剪辑的产品中。
技巧 2:使用精准的 LLM prompts 进行翻译
通常来说,提取的文案如果正确,翻译的准确性是非常高的。但为了获得更好的翻译结果,我们可以不断的优化翻译的 prompts。 大模型对翻译更地道的文本是很有用的,包括:
-
大模型可以学习不同语言的表达习惯和文化差异,从而生成更地道的翻译文本。
-
它可以根据不同的语境和风格,调整翻译结果,使其更符合目标语言的表达习惯。
-
例如,可以识别出一些俚语或俗语,并将其翻译成更符合目标语言的表达方式。 这里特别推荐吴恩达(Andrew Ng)发起的一个翻译 Agent 的项目,能迭代式的反思并优化翻译结果。项目地址如下:https://github.com/andrewyng/translation-agent 技巧
技巧 3:利用大模型对翻译后的文本进行校准
-
通常来说,翻译之前进行校准有助于提高翻译质量。翻译之后也还需要再次校准,尤其是地名、人名的校准,以及一些特别长的句子的简化、一些俚语的本地化等等。 大模型可以在译后再次校准。上述吴恩达老师的最新的开源项目,也是用大模型翻译后,再让系统反思译文并提供建议,然后再利用建议再次完善译文的。
技巧 4:利用大模型对译后文本进行角色标记、标点标记和情感标记
-
文本情感标记是指通过识别文本中的情感特征,将其标注为不同的情感类别,例如积极、消极、中立、愤怒、悲伤、喜悦等。文本情感标记可以用于各种自然语言处理任务,例如情感分析、机器翻译、情感合成等。 TTS(Text-to-Speech)文本转语音技术可以将文本转换为语音,使机器能够“说话”。TTS 技术在语音助手、智能家居、教育、有声读物等领域有着广泛的应用。
大模型可以发挥以下优势,助力文本情感标记和 TTS 技术的发展:
-
强大的语言理解能力: 大模型可以通过训练大量语料库数据,学习语言的统计规律和语义信息,从而更好地理解文本的情感特征。
-
丰富的知识库: 大模型可以存储大量的百科知识和情感词典,这对于识别文本中的情感线索至关重要。
-
多样的情感表达能力: 大模型可以根据文本的情感特征,生成不同情感风格的语音。
以下是我们测试的用大模型进行标点标记和情感标记的测试,对于提高翻译配音后的质量,非常有效,已经应用到我们鬼手剪辑的视频翻译产品中。
使用 ChatGPT 或 Gemini 翻译视频的两种方法
ChatGPT 等大模型本身不是一个视频翻译工具。它可以用来翻译视频的字幕或字幕,但它不能翻译视频本身。要翻译视频,您需要使用视频编辑工具并一起 ChatGPT。或者您可以使用调用大模型翻译 API 的视频翻译工具来翻译视频。
方法一:使用多个视频编辑工具和 Gemini \ChatGPT翻译视频
-
将视频上传到视频编辑软件,如剪映、爱剪辑等
-
使用视频编辑软件为视频添加字幕或字幕,通常是选用他们的提取字幕功能
-
将视频字幕或标题导出为 SRT 文件
-
将 SRT 文件复制并粘贴到 ChatGPT 或 Gemini,使用大模型进行翻译校准标记等
-
使用大模型对文本进行校准
-
使用大模型对文本进行翻译
-
对翻译的文本进行再次校准、简化和其他标记
-
让 ChatGPT/Gemini 等将翻译字幕或说明,并生成一个新的 SRT 文件
-
将翻译后的 SRT 文件导入视频编辑软件并添加到视频中
-
使用剪辑软件中的配音功能,为台词进行配音
-
在视频软件中,手动调整字幕、配音和画面的对齐工作,使之音画对齐
-
最后导出带有翻译字幕和配音的视频。
方法二:使用一站式、全自动的 GhostCut鬼手剪辑 翻译视频
GhostCut 使用 AI 完成端到端的视频翻译,它自动将视频翻译和配音成另一种语言,已经接入 ChatGPT 和 Gemini 大模型进行自动翻译校准、翻译引擎,准确率很高。 要使用 GhostCut 翻译视频,您可以按照以下步骤操作:
-
将您的视频上传到 GhostCut
-
选择“视频翻译”功能
-
选择视频的原始语言和目标语言
-
选择是否添加字幕、添加画外音
-
点击“开始翻译”
鬼手剪辑会自动将您的视频翻译和配音成目标语言。他帮你完成了自动语音提取、自动校对、自动翻译、自动简化、自动配音和音画对齐等等工作。翻译完成后,您可以从 GhostCut 下载翻译后的视频。鬼手剪辑 GhostCut 内置了大模型翻译引擎,把翻译和剪辑软件集成在一起,能修改新老字幕和下载 SRT 文件。配音支持音画同步,字幕支持自动擦除,很方便,很厉害。鬼手剪辑背后的 TTS 对接了 Elevenlabs、魔音工坊、微软、google 等众多 TTS 的声音,尤其是 11labs 的超真实声音,非常的悦耳,还支持克隆。
GhostCut 和其他翻译工具在翻译视频方面有什么区别?
GhostCut 和视频编辑工具+ChatGPT 在翻译视频方面的主要区别在于 GhostCut 是一个全自动的视频翻译工具,集成了个大模型,无需手工处理。而视频编辑工具+ChatGPT 需要你在 ChatGPT 翻译后手动编辑视频字幕或字幕。 这是一个图像表,总结了两种方法之间的主要区别:
功能 | 鬼手剪辑 | 其他工具和大模型 |
端到端翻译 | 是 | 不是 |
自动擦除原字幕 | 是 | 不是-费时费力 |
自动校准 | 是 | 需手动 |
自动翻译 | 是 | 需手动 |
自动字幕对齐 | 是 | 需手动 |
自动配音 | 是 | 需手动 |
支持语言 | 多种 | 多种 |
支持语言 | 多种 | 多种 |
易用性 | 很简单 | 比较困难 |
如你所见,GhostCut 是一种更用户友好和高效的视频翻译方式。更准确、更方便、更便宜。
GhostCut 视频翻译示例
GhostCut 还可以翻译视频中的硬编码字幕!GhostCut 在视频中自动提取和翻译硬字幕的能力是一个重大突破。这是用户长期以来一直要求的功能,也是很少有其他软件程序可以做到的。GhostCut 可以翻译硬字幕,同时保留其风格和位置,这也非常重要。这意味着用户可以将他们的视频翻译成另一种语言,而不必担心字幕看起来不合适。
总的来说,GhostCut 是一款功能强大的工具,可以快速准确地翻译视频。它易于使用,并提供多种功能,例如添加字幕和画外音的功能。如果您需要翻译视频,我强烈建议使用 GhostCut。然而,如果您在翻译过程中需要更多的编辑,您可能更喜欢使用视频编辑工具+ Gemini。