Knowledge Editing for Large Language Models: A Survey

目录

  • Introduction
  • Problem Formulation
  • 评估指标
  • Methods
  • 数据集
  • 应用
  • 讨论
    • 挑战
    • 未来方向

大型语言模型(LLMS)最近由于其出色的理解,分析和生成文本的能力而根据其广泛的知识和推理能力来改变了学术和工业景观。然而,LLM的一个主要缺点是由于其前所未有的参数量,其预训练的大量计算成本。当经常需要将新知识引入预训练的模型中时,这种缺点会加剧。因此,必须开发有效的技术来 更新预训练的LLM。传统方法通过直接微调编码预训练的LLM中的新知识。但是,天真的重新训练LLM可以是计算密集型的,并冒着与模型更新无关的有价值的预训练知识退化的风险。最近,基于知识的模型编辑(KME),也称为知识编辑(KE),吸引了越来越多的关注,该关注旨在精确地修改LLM以纳入特定知识,而不会对其他无关的知识产生负面影响。在这项调查中,我们旨在为KME领域的最新进展提供全面而深入的概述。我们首先引入了KME的一般配方,以涵盖不同的KME策略。之后,我们根据如何将新知识引入预培训的LLM中,并研究现有的KME策略,同时分析每个类别的方法的关键见解,优势和局限性,从而提供KME技术的创新分类法。此外,相应地介绍了KME的代表性指标,数据集和应用程序。最后,我们提供了有关KME的实用性和剩余挑战的深入分析,并提出了有前途的研究方向,以进一步发展该领域。

Introduction

最近,大型语言模型(LLM)已成为一个激烈的话题,彻底改变了学术界和工业[11,97,129,149]。凭借从大型语料库进行预训练中获得的实质性事实知识和推理能力,LLMS表现出对文本信息的前所未有的理解,这些信息能够分析和生成类似于人类专家的文本[75,77,77,121,123,152] 。然而,由于大量参数,LLM的主要缺点是训练过程的极高计算开销[54,58,155]。世界的持续发展会加剧这一点,在这个世界上,更新预训练的LLMS以纠正过时的信息合并新知识以保持其相关性的要求不断出现[76,81,116,120]。例如,如图1所示,一个过时的LLM无法准确描述莱昂内尔·梅西(Lionel Messi)的最新成就,这需要明确注入新知识才能产生正确的答案。
在这里插入图片描述

一个可行的直接策略以更新预训练的LLMS是通过简单的填充[21,31,126,141],直接优化预训练的LLMS的参数以从新数据中编码新知识[6,88,99,149 ]。例如,提出了各种基于instruction调查的方法,以监督的学习方式对新收集的语料库进行预训练的LLM [89,100,137,139]。尽管这种微调技术被广泛使用并能够向LLM注入新知识,但它们以下缺点而闻名:(1)即使提出了一些参数有效的策略,以提高效率[79,138,147],Fine Fine [79,138,147] - 调整LLM可能仍需要密集的计算资源[86,91,150]。 (2)填充模型可以过度拟合新数据,尤其是当用于微调的数据集规模较小时[25,87,90]。 (3)更重要的是,微调的LLMS改变了没有约束的预训练的权重,这可能会失去LLM中有价值的现有知识[29,59,84]。这些挑战限制了用新知识更新LLM的微调技术的实用性。

为了解决用于更新LLM的简单微调的缺点,更多的关注是基于知识的模型编辑(KME)。通常,KME旨在精确修改预训练的LLM的行为,以更新特定知识,而不会对其他与更新无关的其他预训练知识进行负面影响[104、135、145]。在KME中,通常将LLMS中特定知识的更新更新为编辑,例如纠正“谁是美国总统?”的答案。从“特朗普”到“拜登”。关于特定的编辑,KME策略通常通过将辅助网络(或一组参数)引入预训练的模型[47,72,151]或更新(部分)参数来存储新知识[47,72,151]来修改模型输出。 22、45、46、74]。通过这些策略,KME技术可以在记忆中存储新知识或将其定位在用于更新的模型参数中,从而精确地将知识注入模型中。此外,某些方法还引入了明确的损失以包含更新过程,以便编辑的模型在未修改的知识上保持一致的行为。有了这些优势,KME技术可以提供一种有效的方法,可以在不明确的模型重新训练的情况下不断地使用新颖知识更新LLM。

尽管KME与微调策略具有某些相似之处,但它在更新LLMS方面具有独特的优势,这值得进行更深入的调查。特别是,KME和模型微调都试图通过注入新知识来更新预训练的LLM。但是,除了这个共同的目标外,KME还专注于两个关键属性,这些属性无法通过微调轻松解决。 (1)局部性要求编辑的模型不会影响其他与不同语义的无关输入的输出。例如,当更新有关美国总统的编辑时,编辑的模型不应改变其对英国总理的了解。 KME方法的实用性在很大程度上取决于其维护输入无关的输出的能力,这是KME和微调之间的主要区别[105]。 (2)普遍性表示编辑的模型是否可以推广到有关编辑知识的更广泛的相关输入。具体而言,它表明该模型在共享语义相似性的输入上呈现一致行为的能力。例如,当对总统进行编辑时,总统配偶查询的答案也应相应地改变。实际上,对于KME方法,确保编辑模型可以很好地适应这些相关输入文本非常重要。总而言之,由于这两个独特的目标,KME仍然是一项具有挑战性的任务,需要具体的策略来达到令人满意的有效性。

这项调查与现有调查之间的差异。已经进行了几项调查,以检查(大)语言模型的各个方面[13,34,63,65,127,149]。然而,仍然缺乏彻底的调查,这些调查全面涵盖了现有文献和LLM编辑领域的持续进展。例如,最近的作品[89,139]讨论了将预训练的LLM中的新知识与更多数据样本融入新知识的微调策略。但是,KME的独特性,即局部性和普遍性,并未得到充分讨论,这将在本调查中进行彻底分析。另外两项调查[35,57]回顾了知识增强的语言模型。但是,他们的主要重点是利用外部知识来增强预训练的LLM的性能,而无需基于特定知识来解决编辑任务。据我们所知,与我们的调查最相关的论文是[145],它简要概述了KME,并简单地讨论了KME方法的优势及其挑战。然而,调查还缺乏对KME的更多细节,例如分类,数据集和应用程序的更多细节。最近的另一项工作[135]提出了一个KME的框架,该框架统一了几种代表性的方法。这项工作重点是实施KME技术,更少强调不同策略的技术细节。最近,一项工作[104]讨论了KME方法对编辑模型的忠诚的局限性,虽然相对较短,并且缺乏对所有现有方法的更全面的介绍。考虑到KME技术的快速发展,我们认为必须审查所有代表性KME方法的详细信息,总结共同点的同时讨论每种方法的独特性,并讨论KME领域中的开放挑战和前瞻性方向,这将促进该领域该领域的进一步发展。

这项调查的贡献:这项调查提供了与预训练的LLM相关的技术,挑战和机遇的全面,深入的分析。我们首先提供了KME任务的概述以及创新的配方。特别是,我们将一般的KME任务作为一个受约束的优化问题制定,同时结合了准确性,局部性和一般性的目标。然后,我们将现有的KME策略分为三个主要类别,即外部记忆,全局最佳和局部修改。更重要的是,我们证明,每个类别中的方法可以作为专门的约束优化问题进行表述,其中理论上根据一般公式对特征进行了汇总。此外,我们还提供了对每个类别方法的有效性和可行性的宝贵见解,这可以帮助从业者选择针对特定任务量身定制的最合适的KME方法。我们对KME方法的优势和劣势的分析也是KME研究界持续进步的催化剂。在具体的情况下,我们的主要贡献可以概括为三个倍,如下所示:

  • 新颖的分类。我们引入了一个全面的结构化分类框架,以系统地总结了LLM编辑的现有作品。具体而言,基于如何将新知识引入预训练的LLM中,我们的分类包括三个不同的类别:外部记忆,全局优化和本地修改,在此调查中对其共同点和差异进行了详尽的讨论。
  • 深入分析。我们将LLM编辑的任务作为一个受约束的优化问题,其中每个类别的方法都可以视为具有精制约束的特殊情况。此外,我们强调了每个类别的主要见解,优势和局限性。在这种情况下,我们深入研究了每个类别的代表性方法,并系统地分析了它们的互连。
  • 未来发展方向。我们分析了有关各种数据集和应用程序的现有KME技术的实用性。我们还全面讨论了现有的KME技术的挑战,并为未来探索提出了有希望的研究指示。

本文的其余部分安排如下。第2节介绍了LLM编辑的背景知识。第3节提供了KME任务的一般公式,可以适合各种应用程序方案。第4节提供了KME策略的评估指标的全面摘要,这对于对各种方法的公平比较至关重要。在深入研究特定方法之前,我们将现有方法的全面分类为第5.1节中的三个类别,在其中彻底讨论了它们的关系和差异。然后,我们详细介绍了三个类别的方法,其中总结了每个类别的优点和局限性。第6节介绍了普遍使用的公共数据集。第7节提供了可以从KME技术中受益的各种现实任务的详尽介绍。第8节讨论了现有技术尚未解决的KME的潜在挑战。本节还提供了一些潜在的方向,可以激发未来的研究。最后,我们在第9节中得出了这项调查。

Problem Formulation

编辑目标:在这项调查中,我们代表编码或需要注入预训练的LLM的知识作为知识Triple T =(S,R,O),其中S是主题(例如,美国总统),R是关系(例如,IS),O是对象(例如,拜登)。从知识三重的角度来看,llms的kme目的是修改模型的预训练权重中的原始知识t =(s,r,o)中的目标知识t ∗ =(s, r,o ∗),其中o ∗是与o不同的目标对象。通过这种方式,我们可以将编辑定义为元组e =(t,t ∗)=(s,r,o→O ∗),该编辑表示已过时的旧知识t更新到新知识t ∗中。
在这里插入图片描述
在这里插入图片描述
从上面的定义来看,我们可以总结有关KME目标的两个关键观点:(1)一般性,它要求可以在目标输出空间y ∗ e中获得正确的答案,如果给定输入空间中提示Xe,可以将目标知识三重t ∗∈E更新到预训练的模型中; (2)局部性,需要模型输出在无关输入(即X \ Xe)中的一致性,在编辑后可以最大程度地保留有价值的预训练的知识。在这里,我们注意到,局部性对于编辑LLM尤其重要,因为需要更新的知识通常只占据预先训练模型所包含的所有知识的一小部分。换句话说,关于大多数输入提示的编辑模型的输出应与编辑之前的输出保持一致。

评估指标

  • 准确度在这里插入图片描述

  • 局部性
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 通用性
    在这里插入图片描述

  • 保持性
    在这里插入图片描述

  • 可伸缩性
    在这里插入图片描述

Methods

在这里插入图片描述
在这里插入图片描述
面对旧信息的快速贬值和新知识的出现,已经提出了各种KME方法来更新预训练的LLM,以保持其更新和相关性。 KME确保可以有效地将新知识纳入预训练的LLM中,而不会对与编辑无关的预培训知识产生负面影响。在此调查中,我们将现有的KME方法分为三个主要类,如下所示:

  • 基于外部记忆的方法利用外部记忆来存储新知识以编辑而无需修改预训练的权重,而预训练的知识可以完全可以充分保存在LLM重量中。通过使用外部参数存储新知识,基于内存的策略可以通过良好的可扩展性来精确地表示新知识,因为内存很容易扩展以合并新知识。
  • 基于全局优化的方法旨在通过在新知识的指导下进行优化,将新知识纳入预训练的LLMS,在此引入量身定制的策略以限制其他预训练的知识的影响。然而,由于要优化大量参数,这些方法在应用于LLMS上时可能会缺乏编辑效率
  • 基于局部修改的方法旨在找到LLMS中特定知识的相关参数,并相应地进行更新以整合与编辑相关的新知识。局部修改的主要优点是可能仅更新一小部分模型参数,从而与基于记忆的方法和计算效率相比,与全局优化相比,提供了相当大的内存效率。

上述分类是根据(例如外部参数或内部权重)以及在编辑过程中将新信息引入LLM中的(例如,通过优化或直接合并)实现的。具体而言,每个类别的方法在SEC中引入的四个关键评估指标上都表现出不同的优势和劣势。 例如,在计算资源有限的情况下需要大量编辑的情况下,外部记忆占上风,因为内存的大小是可以控制的,以适应不同的要求。另一方面,当从业者更多地关注编辑知识的一般性时,全球优化是有利的,因为优化可以促进相关知识的学习[2]。
在这里插入图片描述

数据集

最近,已经建立了多个数据集,以促进KME方法的评估。在本节中,我们总结了表3中常用的数据集,以使未来的KME研究受益。具体来说,这些数据集可以分为两组:文本输出数据集(即生成任务)和分类输出数据集(即分类任务)。这些数据集是从各种来源获得的,包括知识图,Wikipedia页面,人群响应等,这些响应是由研究人员改编以适应KME设置的。
在这里插入图片描述
在这里插入图片描述

应用

应用程序KME可以使多个下游应用程序受益,并能够精确有效地注入知识为预训练的LLM。在下文中,我们在现实的情况下介绍了KME技术的几个关键应用,在表4中提供了直观的示例。

  • 问答
  • 事实检查
  • 自然语言生成

讨论

挑战

  1. **局部性和通用性之间的权衡。**在KME中,至关重要的是要平衡两个目标,局部性和一般性(如第4节所述),以便可以实现更高的编辑成功率,而对与编辑无关的其他知识的负面影响最小。在编辑语言模型时,可能会在这两个理想的属性之间出现潜在的权衡。如[145]中所示,局部修改方法,例如Memit [87]和Rome [86]通常保留更高水平的位置,因为它们定位了目标知识的精确位置以进行该版本,这并不会很大程度上影响无关的无关权重。另外,T-Patcher [59]指出,增加内存的大小会增加位置,同时降低一般性。这些观察结果强调了当地和一般性之间的复杂平衡。但是,解决权衡问题并在KME方法的这两种理想特性之间取得平衡仍然是一项挑战。
  2. **理论分析。**尽管许多当前的KME研究着重于开发有效的方法来增强各种理想特性的编辑性能,但实际应用与相对较少发现的理论分析之间存在明显的差距。最近,在[125]中,作者为识别有害培训示例的理由提供了理论支持,并通过从贝叶斯观点中删除信息来编辑模型。 Leace [9]引入了一个分析框架,该框架为从语言模型中的各个层中删除目标概念信息的任务提供了理论观点。通常,理论分析是多方面的。首先,理论分析提供了对KME潜在的机制的更深入的理解,从而允许更有原则的编辑方法。其次,强大的理论基础为未来的研究奠定了坚实的基础,鼓励在KME领域进行更严格和系统的探索。但是,据我们所知,关于涉及新知识的KME问题,仍然没有任何全面的理论分析。我们希望未来的研究能够丰富理论话语,这些话语可以深刻地了解KME方法的实质性基础。
  3. 大规模编辑。阻碍KME实际应用的另一种关键属性是可扩展性 - 编辑策略同时有效执行大量编辑的能力[90]。例如,预计会话系统[150]将不断更新,以结合大量的全球事件及其源自它们的信息。但是,随着应用编辑的数量的增加,语言模型的连贯性受到严重危害,因为多次编辑可能与模型中更广泛存在的知识相矛盾[135]。这可能导致当地和通用指标的编辑性能下降[91]。尽管外部记忆方法可以通过更大的其他参数记忆来减轻此类问题,但如果需要数千个编辑,它们仍然很脆弱[86]。此外,仅通过顺序应用它们来对多编辑环境调整单编辑技术,才被证明被证明是次优的[87]。因此,连贯性的独特而复杂的挑战使得在大规模编辑一项艰巨的任务。

未来方向

尽管在开发KME策略方面取得了有效,有效地将新知识更新为LLM的成就,但KME研究仍处于新兴阶段。可以提出几个有希望的指示,以进一步发展这一领域。因此,我们确定了未来值得探索的五个鼓舞人心和重要的开放问题:

  • 无优化的编辑。最近,及时的工程已成为普遍的解决方案,用于以人为优先的方式修改预训练的LLM的行为,而无需参数更新[30]。例如,内在学习以纯文本的形式提供了任务描述和/或演示,以促进模型性能[11],这使其成为语言模型的可能更高效,更实用的策略。我们注意到,IKE [150]提出了一个新颖的框架,该框架依赖于KME的演示上下文而无需更新参数,该框架明确地格式化了可以指导语言模型来复制,更新和保留不同提示的预测的演示。但是,这种策略很难扩展,并且通常没有令人满意的保留率。因此,在开发无优化的KME方法的挑战性任务的同时,这仍然是至关重要的。
  • 编辑目标的自动发现。当前的KME方法主要依靠人类专业知识来识别并将理想的知识纳入预训练的LLM中。这种方法本质上是劳动力密集的,可以产生巨大的成本,尤其是考虑到将大量且快速扩展的新信息集成到语言模型中。一个有希望的未来方向在于编辑的自动化,该自动化旨在识别,评估和优先考虑需要从网站和社交媒体等原始资源中集成的新知识。通过这种策略,可以简化KME的应用,从而使其在现实世界中更实用和适应性。一个简单的解决方案将是爬新知识并将其转变为知识库,为每个知识查询LLM,并编辑错误的答案。但是,这种策略仍然缺乏效率。因此,在不努力的情况下发现从各种资源中发现编辑知识仍然是一项至关重要的任务。
  • 持续编辑。 LLM编辑的当前方法主要考虑一步离线编辑[5,25];但是,这种方法与现实世界应用不符,在这些应用程序中,模型可能会不断遇到要注入的新知识。例如,在线质疑(QA)模型可能会不断遇到最终用户的不正确答案的报告,其中需要在运行中进行编辑[59]。因此,最佳的KME技术应能够即时,不断地纠正新兴问题。我们注意到,预先训练的LLM的持续编辑提出了一个独特的挑战:防止编辑的模型忘记或与以前的编辑相矛盾。尽管存在固有的复杂性,但实践中对持续编辑的持续需求强调了解决这一挑战的重要性。
  • 鲁棒的编辑。 KME发展的一个重要方向在于增强其鲁棒性。在这个错误信息迅速传播的时代,紧急编辑模型不仅保留其准确性,而且可以抵制对抗性攻击和错误信息[38]。在这里,我们应该注意,鲁棒性的概念不仅可以保持事实准确性。它涉及强化该模型,以防止潜在的对抗性外部扰动[101]。例如,如果将KME恶意应用于语言模型中注入有害知识,则可以轻松地将编辑的模型转换为错误信息的工具[126]。因此,为防止此类案件,对于KME技术来说,开发能够识别和抵消此类不良投入的能力至关重要,从而增强了他们针对对抗性行动的韧性。在实践中,随着趋势倾向于开源大型语言模型,保护可能会使这些模型有害的潜在操作保护变得越来越重要。
  • 可编辑的公平性。随着大型语言模型(LLM)在支持决策中的广泛应用,对公平性的强调已经显着增长[134],这要求LLMS公平对待具有不同背景的人[1]。但是,在大型数据集上训练的LLM不可避免地会在此预训练阶段融合某些偏见[28]。幸运的是,KME技术的精度和效率为减轻此类偏见并促进预训练的LLM的公平性提供了有希望的解决方案。例如,在旨在将传记句子与职业分类的模型中[24],KME可用于注入有关特定职业的细微知识,从而指导该模型对与该职业相关的个人进行更公平的了解[52]。但是,这仍然是一个复杂的挑战,因为公平通常需要考虑不同的个人群体而不是特定的人。这种更广泛的重点使通过KME的知识注入成为非平凡的任务。尽管遇到了这些困难,但语言模型中公平性的增强至关重要,KME技术为实现这一目标提供了有希望的途径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/546088.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

韩顺平Java | C25 JDBC和连接池(上)

概述 JDBC概述:JDBC为访问不同数据库提供统一接口,为使用者屏蔽细节问题。Java程序员使用JDBC可以连接任何提供了JDBC驱动程序的数据库系统,从而完成对数据库的各种操作。 // 模拟代码 //JdbcInterface.java --Java规定的JDBC接口(方法) p…

计算机网络——抓取icmp包

前言 本博客是博主用于记录计算机网络实验的博客,如果疏忽出现错误,还望各位指正。 抓包 我们是用Wireshark工具来进行抓包的。 ​在安装时候一路打勾安装即可,不过最后那个因为是英文,一定要看清,点了立即重启&am…

采用C#.Net +JavaScript 开发的云LIS系统源码 二级医院应用案例有演示

采用C#.Net JavaScript 开发的云LIS系统源码 二级医院应用案例有演示 一、系统简介 云LIS是为区域医疗提供临床实验室信息服务的计算机应用程序,可协助区域内所有临床实验室相互协调并完成日常检验工作,对区域内的检验数据进行集中管理和共享&#xff0…

【UE5.1】使用MySQL and MariaDB Integration插件——(2)查询

在上一篇(【UE5.1】使用MySQL and MariaDB Integration插件——(1)连接MySQL)基础上继续实现查询MySQL数据表功能。 效果 步骤 1. 这里先新建一个控件蓝图,命名为“WBP_OperateDB”,该界面用于在连接数据…

Java——线程

程序 为实现某些功能,使用计算机语言编写的一系列指令(代码)的集合 特指静态的,安装在硬盘中的代码集合 进程 运行中的程序(被加载到内存中),是操作系统进行资源分配的最小单位 线程 进程可以进一步细化为线程,是进程内一个…

运费计算(C语言)

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>int main() {//初始化变量值&#xff1b;int distance, c;float weight, price, discount, fee;//提示用户&#xff1b;printf("请输入路程&#xff0c;单价…

自动驾驶时代的物联网与车载系统安全:挑战与应对策略

随着特斯拉CEO埃隆马斯克近日对未来出行景象的描绘——几乎所有汽车都将实现自动驾驶&#xff0c;这一愿景愈发接近现实。马斯克生动比喻&#xff0c;未来的乘客步入汽车就如同走进一部自动化的电梯&#xff0c;无需任何手动操作。这一转变预示着汽车行业正朝着高度智能化的方向…

C语言基础---指针的基本语法

概述 内存地址 在计算机内存中&#xff0c;每个存储单元都有一个唯一的地址(内存编号)。通俗理解&#xff0c;内存就是房间&#xff0c;地址就是门牌号 指针和指针变量 指针&#xff08;Pointer&#xff09;是一种特殊的变量类型&#xff0c;它用于存储内存地址。指针的实…

六、数据呈现

目录 6.1 理解输入输出 6.1.1 标准文件描述符 1 STDIN &#xff08;0&#xff09; 2 STDOUT &#xff08;1&#xff09; 3 STDERR&#xff08;2&#xff09; 6.1.2 重定向错误 1 只重定向错误 2 重定向错误和数据 6.2 在脚本中重定向输出 6.2.1 临时重定向 6.2.2 永…

腾讯云全新云服务器实例S8/M8正式上线,性能提升高达115%!

2024年4月15日&#xff0c;腾讯云正式上线第八代云服务器标准型实例 S8和内存型实例M8。基于自研服务器的高密设计与硬件升级&#xff0c;搭载第五代英特尔至强可扩展处理器的腾讯云实例S8/M8&#xff0c;计算性能大幅提升&#xff0c;对比腾讯云云服务器上代实例&#xff0c;整…

Ubuntu 22.04安装中文输入法

1. 安装 sudo apt install fcitx5 2. 管理已安装的语言 Setting->Region & Language->Manage Installed Language 在下图中点击“安装”&#xff0c;之后需要等一会 选择Fcitx 5 3. 添加输入法 Setting->Keyboard 点击chinese 选择你想要的输入法 重启一下&a…

React + 项目(从基础到实战) -- 第七期

使用ant design 表单组件,开发登录,注册,搜索功能 React 表单组件 ,受控组件 案列 使用defaultVlue属性 bug : 改变了数据源,但是页面未重新渲染 {/* 表单组件 */}<button onClick{()>{console.log(text);}}>打印</button><button onClick{()>[setText(&…

【网络编程】Linux网络内核结构以及分布剖析

hello &#xff01;大家好呀&#xff01; 欢迎大家来到我的网络编程系列之Linux网络内核结构以及分布剖析&#xff0c;在这篇文章中&#xff0c;你将会学习到在Linux内核中如何实现网络数据的输入和输出的&#xff0c;并且我会给出源码进行剖析&#xff0c;以及手绘UML图来帮助…

《TinyLlama: An Open-Source Small Language Model》全文翻译

【Title】 TinyLlama&#xff1a;开源小语言模型 【Abstract】 我们推出了 TinyLlama&#xff0c;这是一个紧凑的 1.1B 语言模型&#xff0c;在大约 1 万亿个令牌上进行了大约 3 个时期的预训练。 TinyLlama 基于 Llama 2&#xff08;Touvron 等人&#xff0c;2023b&#xff…

【Python】#3 基本程序控制

文章目录 一、分支结构if语句&#xff08;Python没有switch&#xff09;tips:紧凑形式&#xff1a;适用于简单表达式的二分支结构 二、循环结构1. for语句range函数 2. while语句3. 循环保留字&#xff1a;break/continue与带else的循环语句 一、分支结构if语句&#xff08;Pyt…

关于伴行天使车载监护器的技术路线

为了判断分析并反馈孩童是否昏睡状态&#xff0c;以预防因分心后排而导致的交通事故&#xff0c;本团队根据基于回归树对齐算法中获取的数据&#xff0c;建立了疲劳度评分机制。 本评分机制采用人脸关键点智能标注模型检测人脸&#xff0c;通过人脸识别68特征点检测、分别获取…

16.读取指定路径下的txt文档然后合并内容为一个txt文档。

1.题目要求 分别读取路径为 ./middle/phone/base/1_student_0.txt, ./middle/vr/base/1_teacher.txt, ./nearby/phone/base/1_student_0.txt, ./nearby/vr/base/1_teacher.txt, ./outside/phone/base/1_student_0.txt, ./outside/vr/base/1_teacher.txt 里面的文件&#xff…

【MATLAB源码-第43期】基于matlab的turbo码误码率仿真比较不同迭代次数,采用logmap/sova算法。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 Turbo码是一种前向纠错码 (Forward Error Correction, FEC)&#xff0c;在 1993 年由法国的两位研究员 Claude Berrou 和 Alain Glavieux 提出。这种编码技术以其接近 Shannon 极限的高性能而受到广泛关注。以下是关于 Turbo…

【word】文档标题如何自动编号

我在写一个word文档的时候&#xff0c;每一级标题的格式都设置好了&#xff0c;包括字体&#xff0c;大小等等&#xff0c;但是如何自动编号呢&#xff1f; 在写中期报告的时候&#xff0c;我对每一级标题的格式都创建了一个单独的样式&#xff0c;像这样&#xff1a; 对于每一…

Linux——信号量与基于环形队列的生产者消费者模型

目录 前言 一、信号量 二、信号量的接口 1.初始化 2.销毁 3.申请信号量 4. 释放信号量 三、基于环形队列的生产者消费者模型 1.环形队列的理解 2.生产者消费者的设计 3.单消费者单生产者环形队列的实现 4.多消费者多生产者环形队列的实现 前言 之前&#xff0c;…