为什么LLM都在卷上下文长度？不是其他卷不起，而是上下文更有性价比！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

如果用一个成语来形容AI行业近两年的发展，用“日新月异”毫不为过。特别是最近，各大LLM开始卷起了上下文长度，尤其是国内的LLM大语言模型们。在2023年，大家还沉浸在类似ChatGPT这样的聊天机器人带来的震撼中，上下文长度可以说是“够用就行”，比如最新GPT-4模型长度是128K tokens，Claude 2.1模型则拥有200K tokens的上下文窗口。然后，2023年10月，AI初创公司月之暗面发布了支持20万汉字长文本处理的AI工具Kimi Chat。紧接着，2024年2月15日，谷歌官宣了100万tokens上下文的模型Gemini 1.5 Pro。随后，2024年3月4日，Anthropic发布了媲美GPT-4的模型Claude 3，最大上下文窗口也是达到了100万tokens。接下来就是国内的LLM们的表演时刻了。首先是月之暗面宣布Kimi Chat开启200万字上下文内测，然后是前几天阿里宣布通义千问已经开放了1000万字长文档处理功能，同一天，百度表示文心一言下个月将开放200万-500万长度的长文本处理能力。

时间	公司/团队	模型/工具	上下文长度
2023年	OpenAI	GPT-4	128K tokens
2023年	Anthropic	Claude 2.1	200K tokens
2023年10月	月之暗面	Kimi Chat	20万字
2024年2月15日	谷歌	Gemini 1.5 Pro	100万tokens
2024年3月4日	Anthropic	Claude 3	100万tokens
2024年3月18日	月之暗面	Kimi Chat（内测）	200万字
2024年3月22日	阿里	通义千问	1000万字
2024年3月22日	百度	文心一言（预告）	200万-500万字

关于如何使用这些AI工具，新来的朋友可以看我之前写的相关文章：

谷歌Gemini 1.5 Pro向所有人开放，无需waitlist！阿里通义千问升级1000万字长文档处理功能！
卷起来！Kimi Chat开启200万字上下文内测！苹果与谷歌商谈在新iPhone中使用Gemini AI！
【全网首发】上周申请的谷歌Gemini 1.5 Pro已通过！百万token的Gemini 1.5 Pro开箱测试（一）
重磅更新！谷歌发布Gemini 1.5 Pro！多模态，1000K上下文！附Waitlist链接！

那么，AI里面的上下文长度到底是什么？为什么这么多大语言模型都在卷上下文长度这个指标？

AI在语言理解和文本处理方面的发展

从最初的规则驱动系统到今天的深度学习模型，AI在语言理解和文本处理方面经历了翻天覆地的变化。早期的AI系统受限于预设的逻辑和有限的数据库，它们在处理自然语言时往往显得笨拙且缺乏灵活性。然而，随着时间的推移，AI开始展现出对语言的深刻理解和处理能力，尤其是在近年来，深度学习技术的突破使得AI在自然语言处理（NLP）领域取得了显著的进步。深度学习，尤其是循环神经网络（RNNs）和后来的Transformer架构，为AI提供了前所未有的上下文理解能力。这些模型能够捕捉到文本中长距离的依赖关系，使得AI在处理语言时更加灵活和准确。BERT、GPT等基于Transformer的模型，通过自注意力机制，进一步提升了AI对上下文的敏感度，使得机器能够更好地理解语言中的细微差别。

尽管如此，AI在处理自然语言时，仍然面临着一系列挑战，尤其是在理解上下文方面。上下文，或者说文本的语境信息，对于人类来说是自然而然的理解过程，但对于AI来说却是一个复杂的问题。一方面，语言的多样性和歧义性使得上下文理解变得异常复杂。AI需要在处理大量文本数据时，不仅捕捉到单个词汇的含义，还要理解这些词汇在特定上下文中的意义，这要求AI具备更为复杂的语言模型和更大的上下文理解能力。另一方面，随着AI应用场景的不断扩大，对AI上下文理解的要求也在不断提高。例如，在法律、医疗等专业领域，AI需要处理大量的专业术语和复杂的语句结构，这对AI的上下文理解能力提出了更高的要求。

大语言模型LLM中的上下文长度

上下文长度是指在人工智能处理信息时，尤其是在自然语言处理（NLP）中，AI能够同时考虑的最大词汇数量或文本片段。这一概念对于AI理解语言的连贯性、捕捉语义关联以及处理复杂信息至关重要，因为它直接影响到AI系统理解和生成信息的能力。对于AI模型来说，更长的上下文长度意味着能够更好地理解文本的整体含义，包括隐含的语境、情感色彩以及潜在的逻辑关系。这对于提高AI的准确性和可靠性，特别是在需要深入理解人类语言细微差别的场景中，具有决定性的作用。在语言模型中，上下文长度决定了AI能够捕捉到的语句间的关联程度，从而影响其对语言的理解和生成的自然度。在图像识别领域，上下文长度则涉及到AI在识别图像中的对象时，能够考虑到周围环境信息的范围，这对于提高识别的准确性至关重要。

那么，上下文长度的增加意味着什么？当上下文长度达到1万字时，AI模型已经能够理解和分析相当长的文本，如完整的小说章节、详细的研究报告或长篇幅的法律文件。然而，当上下文长度进一步提升至20万字时，AI的处理能力将达到一个新的层次。在这样的上下文长度下，AI不仅能够理解单篇文章的内容，还能够理解一整本书的内容，以及跨文档进行信息的关联和整合。例如，在进行历史研究时，AI可以分析大量历史文档，识别出不同时期、不同来源之间的历史事件关联。在医疗领域，这样的上下文长度允许AI整合患者的完整病历，包括多年的诊断报告、治疗方案和病情变化，从而提供更为精准的诊断建议。

此外，20万字的上下文长度也对AI的创造性写作和复杂对话生成提出了新的可能。AI可以创作出具有丰富背景设定和深层次人物关系的故事，或者在模拟对话中维持长时间的连贯性和一致性。在法律领域，这样的上下文长度使得AI能够处理复杂的案件，分析相关法律法规、历史判例以及具体案件的详细记录，为律师提供有力的支持。

为什么卷上下文长度

技术推动

技术的进步是推动上下文长度增加的根本原因之一。随着计算能力的显著提升，尤其是GPU和TPU等专用硬件的发展，处理大规模数据集变得更加高效，为AI模型训练提供了强大的技术支持。此外，模型架构的创新，如Transformer的引入，极大地提高了模型处理长序列数据的能力，使其能够捕捉到更长距离的依赖关系。这些技术进步不仅使得模型能够处理更长的上下文，而且还提高了模型训练和推理的速度，使得在实际应用中处理大量数据成为可能。

算法和优化技术的突破也在促进上下文长度的扩展。例如，稀疏化技术和参数共享机制减少了模型的参数量，同时保持了模型性能，这使得模型能够在有限的计算资源下处理更长的上下文。此外，注意力机制的优化和新型的记忆管理策略，如滑动窗口技术和动态注意力分配，进一步提升了模型处理长上下文的效率和准确性。这些技术进展不仅推动了上下文长度的增长，还为AI模型处理更复杂、更细粒度的任务提供了可能。

性能提升

从性能提升的角度来看，更长的上下文长度直接关系到AI模型的理解和生成能力。当AI模型能够接触和分析更广泛的上下文信息时，它们对于语言的理解将更加深入，生成的内容也更加连贯和准确。这一点在自然语言处理（NLP）任务中尤为重要，长上下文使得模型能够捕捉到更多的语境信息，从而更好地理解问题的背景，理解句子之间复杂的逻辑关系和隐含意义，从而在文本摘要、对话问答等任务上表现出更高的性能。在文本生成任务中，长上下文的AI能够创作出更加连贯和逻辑一致的文本，因为它能够记住并参考之前的叙述，避免出现不一致或突兀的内容转换。

此外，更长的上下文长度对于提高模型的泛化能力也至关重要。通过训练模型以理解和处理更广泛的信息，模型能够在遇到未见过的数据或情境时，更好地利用其学习到的知识进行推理和决策。这不仅提升了模型在特定任务上的表现，还增强了模型在多领域、跨任务的适应性和灵活性。

应用需求

应用需求的不断提升是推动上下文长度增长的重要外部因素。随着AI技术的广泛应用，从金融、法律、医疗到教育、娱乐，对AI的依赖日益增加，这些专业领域对AI处理信息的精度和复杂度提出了更高的要求。在处理专业领域的文档、对话或者是数据分析时，长上下文的处理能力能够帮助AI更准确地理解专业术语和上下文中的细微差别，提供更为精准的服务和建议。

同时，随着人工智能技术向消费者市场的渗透，用户对AI交互体验的要求和期望也在提高。人们期待与AI进行更自然、更深入的对话，这需要AI模型能够理解和记忆对话历史中的详细信息，以实现更加连贯和个性化的交互。长上下文的处理能力直接关联到提升用户体验和满足用户需求的能力，从而推动了AI模型在上下文长度上的持续进步。

更有性价比

大语言模型们在“卷上下文长度”方面的竞争，部分原因也是因为相比于提升LLM的“智商”——即其理解、推理、创造等复杂能力的提升，扩大上下文长度在技术实现上相对容易一些。这一现象背后涉及到AI发展的技术路线选择、资源投入的效率，以及市场和应用需求等多方面因素。

从技术角度看，扩大上下文长度主要依赖于计算资源的提升和算法优化，这些改进相对直接，而且进步的路径较为清晰。例如，通过增加计算资源、优化模型结构或使用更高效的训练方法，可以在不改变模型基本架构的情况下实现上下文长度的增加。这些方法往往能够在短期内看到明显效果，且对于已有的模型架构改动较小，技术风险和开发成本相对较低。相比之下，提升模型的“智商”，例如改进模型的理解能力、推理能力、甚至创新能力，则需要在模型架构、算法创新等方面进行更深层次的探索和突破。这不仅涉及基础理论的研究，还需要在模型训练方法、数据处理等多个环节进行创新。这类改进往往需要较长的研发周期，且成功的不确定性较大，需要较高的技术积累和大量的资源投入。

从市场和应用需求的角度来看，上下文长度的提升能够直接扩展模型的应用场景，如处理更长的文档、支持更复杂的对话等，这些都是用户直接感知到的改进，能够迅速增强用户体验和满意度。因此，从产品竞争的角度出发，快速提升上下文长度成为了一个相对效率高、回报快的选择。