计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

在这里插入图片描述


目录

文章目录

  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27
    • 目录
    • 1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
  • VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 3. Drift to Remember
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 4. OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 5. The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 6. Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 7. Will Large Language Models be a Panacea to Autonomous Driving?
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 8. Loop-Residual Neural Networks for Iterative Refinement
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:★★★★☆
    • 推荐理由
    • 9. LLMs are One-Shot URL Classifiers and Explainers
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 10. Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 重要数据与结论
    • 推荐阅读指数:
    • 推荐理由


1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

Authors: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Yuxiao Dong, Jie Tang
https://arxiv.org/abs/2409.13730

VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准

在这里插入图片描述

摘要

多模态大型语言模型(MLLMs)通过整合文本和视觉信息,在多种任务中展现了有前景的能力,以实现复杂场景下的视觉理解。尽管已有多个基准旨在评估MLLMs在从视觉问题回答到复杂问题解决等任务的表现,但大多数主要集中在数学或一般视觉理解任务上。这揭示了当前基准的一个关键缺口,即常常忽略了物理和化学等其他关键科学学科的包含。为了解决这一差距,我们精心构建了一个全面的基准,名为VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。此基准包括来自K12教育的3000个问题——从小学到高中——每个学科1000个问题,涵盖21个不同主题,并分为五个难度级别,为每个学科提供广泛的主题范围。利用VisScience,我们详细评估了25个代表性MLLMs在科学推理方面的表现。实验结果表明,封闭源MLLMs通常优于开源模型。最佳表现包括Claude3.5-Sonnet在数学上的53.4%准确率,GPT-4o在物理上的38.2%准确率,以及Gemini-1.5-Pro在化学上的47.0%准确率。这些结果强调了MLLMs的优势和局限性,为未来的改进提供了方向,并突出了开发能够有效处理多模态科学推理多样化需求的模型的重要性。

研究背景

近年来,大型语言模型(LLMs)在包括自然语言理解、文本生成和复杂问题解决在内的广泛任务中展现了卓越的能力。LLMs的成功促进了多模态大型语言模型(MLLMs)的发展,这些模型通过整合处理和分析文本和视觉信息的能力,扩展了这些能力。评估是评估这些MLLMs在各种任务中能力的一个重要组成部分,近年来得到了广泛的关注和快速发展。

问题与挑战

尽管在多模态推理任务中评估MLLMs的能力变得越来越重要,但现有的基准通常集中在数学上,忽略了物理和化学等其他关键科学学科。此外,现有的基准通常从有限的来源收集,导致缺乏自然难度级别,从而无法完整评估模型的能力。此外,当前的基准主要以单一语言提供,限制了对MLLMs多语言能力的评估。

创新点

  • 提出了一个全面的基准VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。
  • 该基准包括来自K12教育的3000个问题,涵盖21个不同主题,并分为五个难度级别。
  • 对25个代表性MLLMs进行了详细评估,包括封闭源和开源模型。
    在这里插入图片描述

算法模型

  • 封闭源模型:Claude3.5-Sonnet, GPT-4o, Gemini-1.5-Pro等。
  • 开源模型:InternVL-1.2-Plus, InternVL-Chat-V1.5等。

实验效果

  • 数学:Claude3.5-Sonnet达到53.4%的准确率。
  • 物理:GPT-4o达到38.2%的准确率。
  • 化学:Gemini-1.5-Pro达到47.0%的准确率。
  • 开源模型通常低于封闭源模型,但InternVL-1.2-Plus表现出竞争力。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数:

★★★★☆

推荐理由

  • 对于研究人员和开发人员来说,VisScience提供了一个全面的基准,用于评估和改进MLLMs在科学推理任务中的表现。
  • 该基准的多语言和多学科特性使其成为希望在这些领域工作的研究人员的宝贵资源。

2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data

Authors: Zhao Cheng, Diane Wan, Matthew Abueg, Sahra Ghalebikesabi, Ren Yi, Eugene Bagdasarian, Borja Balle, Stefan Mellem, Shawn O’Banion
https://arxiv.org/abs/2409.13903

CI-Bench: 在合成数据上对AI助手的情境完整性进行基准测试
在这里插入图片描述

摘要

生成式AI的进步预示着一个新的个性化应用时代,这些应用代表用户执行多样化任务。尽管通用AI助手尚未完全出现,但它们潜在地共享个人数据的能力引发了重大的隐私挑战。本文介绍了CI-Bench,这是一个全面的合成基准,用于评估AI助手在模型推理期间保护个人信息的能力。利用情境完整性框架,我们的基准测试能够系统地评估跨重要情境维度的信息流,包括角色、信息类型和传输原则。我们提出了一个新的、可扩展的多步合成数据管道,用于生成自然通信,包括对话和电子邮件。与之前规模较小、范围较窄的评估工作不同,我们提出了一个新颖的、可扩展的多步数据管道,该管道合成地生成自然通信,包括对话和电子邮件,我们用它来生成涵盖八个领域的44,000个测试样本。此外,我们制定了并评估了一个简单的AI助手,以证明进一步研究和精心培训对个人助理任务的必要性。我们设想CI-Bench作为一个有价值的工具,用于指导未来的语言模型开发、部署、系统设计和数据集构建,最终有助于开发与用户隐私期望一致的AI助手。

研究背景

基于语言的模型的自主AI助手,由于最近在外部记忆、更大的上下文窗口、调用外部记忆或API等方面的进展,越来越能够利用用户数据。AI助手访问用户数据(无论是通过模型参数、上下文窗口内的输入,还是工具调用)使得各种个性化应用成为可能,如电子邮件撰写、表格填写、日历管理和会话参与。然而,这些应用也可能引入隐私风险,并无意中暴露用户信息。
在这里插入图片描述

问题与挑战

评估AI助手访问用户信息时的隐私风险,我们采用了情境完整性(CI)框架,该框架将隐私定义为根据特定相关情境的规范进行适当的信息流。现有的评估通常缺乏对AI助手在保护用户信息方面能力的系统性评估,特别是在多样化的领域和情境参数中。

创新点

  • 提出了一个全面的基准CI-Bench,用于细粒度地理解AI助手评估信息流适当性的能力。
  • 包括一个新的数据集,涵盖结构化信息流场景和非结构化任务场景,以及相应的上下文理解、规范识别和适当性判断任务。
  • 展示了一个可扩展的数据生成管道,利用真实世界的结构化数据来生成合成的、非结构化的对话数据。
    在这里插入图片描述

算法模型

  • AI助手原型:使用大型语言模型(如Gemini模型)进行原型设计。
  • 合成数据管道:多步骤合成数据生成过程,包括从公共领域的真实对话中提取关键特征,使用LLM合成生成现实任务场景。

实验效果

  • 上下文理解:模型在理解信息属性和用户意图方面表现良好,但在识别接收者方面表现不佳。
  • 规范识别:模型在识别相关规范方面存在挑战,尤其是在较小的模型中。
  • 适当性判断:模型在判断信息共享适当性方面存在困难,尤其是在没有明确规范的情况下。
  • 响应生成:模型在生成响应方面的能力有限,尤其是在需要综合多种技能的情况下。

推荐阅读指数:

★★★★☆

推荐理由

  • 对于对AI助手隐私保护能力感兴趣的研究人员,CI-Bench提供了一个全面的基准和评估框架。
  • 对于希望了解AI助手在处理敏感信息时的挑战和限制的开发者,本文提供了深入的分析和实验结果。
  • 对于关注AI伦理和隐私的学者,CI-Bench可以作为未来研究和讨论的基础。

3. Drift to Remember

Authors: Jin Du, Xinhe Zhang, Hao Shen, Xun Xian, Ganghua Wang, Jiawei Zhang, Yuhong Yang, Na Li, Jia Liu, Jie Ding
https://arxiv.org/abs/2409.13997
在这里插入图片描述
铭记漂移:在持续学习中通过表示漂移减轻灾难性遗忘

摘要

在人工智能(AI)中,持续学习的目标是模仿生物大脑持续学习和保留知识的能力,但面临灾难性遗忘等挑战。最近的神经科学研究表明,在生物系统中,即使输入和任务保持一致,神经活动也会随时间发生表示漂移。我们假设表示漂移可以减轻AI在获取新任务时的灾难性遗忘。为了验证这一点,我们介绍了DriftNet,这是一个设计用来在损失景观中不断探索各种局部最小值,同时动态检索相关任务的网络。这种方法确保了新信息的有效整合,并保留了现有知识。在图像分类和自然语言处理的实验研究表明,DriftNet在持续学习方面的表现超过了现有模型。重要的是,DriftNet可以扩展到处理如情感分析和问答等序列任务,并且能够在单个Nvidia A100 GPU上处理数十亿参数的大型语言模型(LLMs)。DriftNet使用新数据高效更新LLMs,避免了重新训练整个数据集的需要。在GPT-2和RoBERTa上测试表明,DriftNet是LLMs持续学习中的一个鲁棒且具有成本效益的解决方案。本研究不仅推进了AI系统模仿生物学习的能力,还为生物神经系统的适应性机制提供了见解,加深了我们对自然中持续学习的理解。

研究背景

生物大脑展现出了显著的持续学习能力,能够在一生中获取新能力的同时保留先前学习的信息。相比之下,在AI中,这种被称为持续学习的能力,即一个系统能够顺序地学习新任务而不遗忘以前的任务,仍然是一个巨大的挑战。主要问题是灾难性遗忘,即在学习新任务时,先前学习任务的性能显著下降。

问题与挑战

现有的持续学习方法主要包括正则化、重放和架构方法,但这些方法在学习新任务时面临着保持对先前任务性能的挑战。

创新点

  • 提出DriftNet,一个受生物系统表示漂移启发的持续学习框架。
  • 引入外部噪声,使网络在损失景观中不断探索新的局部最小值。
  • 利用知识库组织这些局部最小值,形成特定于任务的群体,即使在训练期间不需要明确知道任务身份。
  • 使用输出不确定性来检索学习任务的相关知识。
    在这里插入图片描述
    在这里插入图片描述

算法模型

DriftNet由两部分组成:一个用于探索的进化网络和一个用于编码和检索分组任务特定信息的知识库。DriftNet通过探索、编码和检索三个主要步骤进行操作。

实验效果

  • 在模拟数据上,DriftNet的平均测试损失为(1.01±0.07)×10^-2,显著低于稳定基线4.22±0.15。
  • 在图像分类任务中,DriftNet在CIFAR-10和CIFAR-100上的平均测试准确率分别为80.19±0.67%和41.83±0.75%,而稳定基线分别为19.18±0.02%和12.84±0.07%。
  • 在NLP任务中,DriftNet的平均测试准确率达到70.37±1.22%,显著优于稳定基线18.29±0.06%。

推荐阅读指数:

★★★★☆

推荐理由

  • 对于希望了解如何通过模仿生物学习机制来改善AI系统性能的工程师和研究者,DriftNet提供了一种有效的方法。
  • 对于关注AI在处理灾难性遗忘问题上最新进展的学者,本文的实验结果和分析具有重要价值。

4. OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang
https://arxiv.org/abs/2409.14038
在这里插入图片描述
OAEI-LLM:一个用于理解大型语言模型在本体匹配中幻觉现象的基准数据集

摘要

大型语言模型(LLMs)在特定领域的任务中常常出现幻觉现象,本体匹配(OM)也不例外。LLMs在OM任务中的应用日益广泛,这就需要基准数据集来更好地理解LLMs的幻觉现象。OAEI-LLM数据集是本体对齐评估倡议(OAEI)数据集的扩展版本,用于评估LLMs在OM任务中的特定幻觉。本文概述了数据集构建和模式扩展中使用的方法,并提供了潜在用例的示例。

研究背景

LLMs在自然语言生成(NLG)和问答(QA)方面展现出了令人难以置信的能力。在语义网社区,LLMs最近被用于本体匹配(OM)。尽管LLMs为OM提供了强大的背景知识库,但它们可能会生成一些错误的映射,并错过一些真正的映射,导致精确度或召回率降低。这种现象在最近的几篇论文中有所观察。

问题与挑战

LLMs在处理本体匹配任务时可能会产生幻觉现象,导致生成错误的映射或遗漏正确的映射。这种现象主要是由于LLMs在没有足够的背景知识或拥有有偏见的领域知识时倾向于生成合成答案。

创新点

  • 提出了OAEI-LLM数据集,用于测量LLMs在OM任务中的幻觉程度。
  • 将原始人类标记的结果与LLM生成的结果进行比较,分类不同LLMs产生的幻觉类型,并记录新的模式扩展信息。

算法模型

本文实现的基于LLM的OM系统生成了LLM-Alignment文件,该系统将源本体和目标本体作为输入,并生成一组预测映射。通过比较OAEI参考与LLM-Alignment来识别差异。

实验效果

本文没有提供具体的实验效果数据,而是侧重于介绍数据集的构建和潜在用途。
在这里插入图片描述

推荐阅读指数:

★★★☆☆

推荐理由

  • 对于研究LLMs在特定领域任务(如本体匹配)中的表现和挑战的研究人员和开发者,本文提供了有价值的见解。
  • 对于希望了解如何评估和改进LLMs在本体匹配任务中性能的专业人士,OAEI-LLM数据集可能非常有用。
  • 本文为LLMs在本体匹配任务中的幻觉现象提供了一个评估框架,有助于未来在这一领域的研究。

5. The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills

Authors: Goran Buba\v{s}
https://arxiv.org/abs/2409.14050
在这里插入图片描述
GPT-4o和其他大型语言模型在提高和设计人际交流技能自我评估量表中的应用

摘要

本文探讨了如何使用GPT-4o和其他大型语言模型(LLMs)来改进和设计用于测量人际交流技能的自我评估量表。研究表明,这些模型在处理人类心理学和交流信息方面的能力为个性心理学和人际交流技能的科学应用提供了机会。

研究背景

随着大型语言模型(LLMs)在各种语言任务中的表现越来越接近甚至超过人类平均水平,它们在科学研究的多个阶段展现出了巨大的潜力。

问题与挑战

如何有效地利用LLMs处理关于人类心理学和交流的信息,以及如何将这些模型应用于个性心理学和人际交流技能的测量。

创新点

  • 提出使用LLMs来改进和设计自我评估量表。
  • 展示了LLMs在自动生成项目和评估内容有效性方面的潜力。

算法模型

  • GPT-4o
  • 其他大型语言模型,如Microsoft’s Copilot, Google’s Gemini 1.5 Pro, Antrophic’s Claude 3.5 Sonnet

实验效果

文中没有提供具体的实验数据和统计结果,但提到了LLMs在设计自我评估量表方面的潜在好处,并给出了使用LLMs进行评估、设计和改进人际交流技能自我评估量表的总结。
在这里插入图片描述

推荐阅读指数:

★★★☆☆

推荐理由

跨学科应用

6. Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction

Authors: Amrit Diggavi Seshadri
https://arxiv.org/abs/2409.14091

在这里插入图片描述
归一化窄跳跃至结论:针对参数高效提前退出的Transformer预测的归一化窄捷径

摘要

随着大型基于Transformer的语言模型尺寸和成本的增长,近期对早期Transformer隐藏表示直接映射到最终表示的捷径投射法,以实现更便宜的模型推理,引起了人们的兴趣。文章提出了Narrow Jump to Conclusions (NJTC) 和 Normalized Narrow Jump to Conclusions (N-NJTC),这是标准线性捷径的参数高效替代方案,将捷径参数数量减少了97%以上。研究表明,N-NJTC在早期阶段的准确性可靠地超过了Identity捷径,并为GPT-2-XL、Phi3-Mini和Llama2-7B等Transformer模型提供了从所有Transformer块级别稳定的精度。

研究背景

大型语言模型通过顺序堆叠由多头自注意力和前馈层组成的块来构建。这种堆叠提高了模型性能,但也增加了推理的计算成本。

问题与挑战

现有的Transformer模型在进行早期退出推理时,需要大量的参数,这导致了计算成本高昂。

创新点

  • 提出了NJTC和N-NJTC作为标准线性捷径的参数高效替代方案。
  • 展示了早期阶段的线性捷径可以通过低秩表示来近似,从而比JTC捷径减少超过97%的参数。

算法模型

  • Narrow Jump To Conclusions (NJTC): 使用两层简单的线性神经网络,通过矩阵A和B来近似高阶段的Transformer块输出。
  • Normalized Narrow Jump To Conclusions (N-NJTC): 在NJTC的基础上增加了批量归一化层,以避免对自然高方差Transformer维度的偏见。

实验效果

  • GPT-2-XL: 48个Transformer块,隐藏维度1600,总参数1.5亿。
  • Phi3-Mini: 32个Transformer块,隐藏维度3072,总参数3.8亿。
  • Llama2-7B: 32个Transformer块,隐藏维度4096,总参数7亿。

实验结果显示,N-NJTC在所有模型的早期阶段都能可靠地超过Identity捷径,并在所有Transformer块级别提供稳定的精度和惊讶度。
在这里插入图片描述

推荐阅读指数:

★★★★☆

推荐理由

  • 创新性:文章提出的NJTC和N-NJTC方法在大幅减少参数数量的同时,保持了模型预测的质量,对资源有限的环境具有重要意义。
  • 实用性:对于需要在参数效率和模型性能之间取得平衡的应用场景,该研究提供了有价值的参考。
  • 实验充分:在多个大型Transformer模型上进行了实验验证,结果具有说服力。

7. Will Large Language Models be a Panacea to Autonomous Driving?

Authors: Yuxuan Zhua, Shiyi Wang, Wenqing Zhong, Nianchen Shen, Yunqi Li, Siqi Wang, Zhiheng Li, Cathy Wu, Zhengbing He, Li Li
https://arxiv.org/abs/2409.14165
在这里插入图片描述

大型语言模型会是自动驾驶的灵丹妙药吗?

摘要

本文探讨了大型语言模型(LLMs)在自动驾驶(AD)中的应用,并分析了它们是否能够解决自动驾驶领域面临的挑战。目前自动驾驶技术主要有两种技术路径:模块化和端到端。模块化方法将驾驶任务分解为感知、预测、规划和控制等模块,而端到端方法则尝试通过单一模型直接从传感器数据映射到控制信号。文章分析了LLMs在优化这两种方法中的潜力,并讨论了LLMs在AD系统中可能遇到的局限性和挑战。

在这里插入图片描述

研究背景

自动驾驶是现代交通工具研究的关键领域,其发展深度依赖于人工智能(AI)的进步。随着AI技术的发展,自动驾驶的实现方式主要形成了模块化和端到端两种设计方法。

问题与挑战

自动驾驶系统在实际应用中面临诸多挑战,包括确保鲁棒性、可验证性、可解释性以及高效的人车交互。此外,无论是模块化还是端到端方法,都存在训练目标不一致、难以处理不可预测的长尾事件和复杂城市交通场景等问题。

创新点

文章提出了利用具有强大推理能力和广泛知识理解的LLMs来提升自动驾驶系统的可能性,并探讨了LLMs在解决现有自动驾驶解决方案中的问题和挑战方面的潜力。

算法模型

文章没有提出新的算法模型,而是对现有的自动驾驶技术和大型语言模型进行了全面的分析和讨论。

实验效果

文章通过案例研究和分析,展示了LLMs在自动驾驶任务中的潜在应用,包括在模块化和端到端方法中的应用。文章指出,尽管LLMs在参数数量大幅减少的情况下,仍能提供比传统方法更好的性能。

推荐阅读指数:

★★★★☆

推荐理由

  • 全面性:文章全面分析了LLMs在自动驾驶领域的潜在应用,涵盖了从感知、预测、规划到控制的各个模块。
  • 前瞻性:探讨了LLMs在自动驾驶领域的最新进展,对于理解未来自动驾驶技术的发展方向具有指导意义。
  • 实用性:讨论了LLMs在实际自动驾驶系统中的应用潜力,对于相关领域的研究者和工程师具有参考价值。

8. Loop-Residual Neural Networks for Iterative Refinement

Authors: Kei-Sing Ng, Qingchen Wang
https://arxiv.org/abs/2409.14199

用于迭代细化的循环残差神经网络

摘要

本文介绍了一种新型的循环残差神经网络(Loop-Residual Neural Network),该网络通过利用更长的计算时间来提高性能,而不增加模型大小。该方法通过循环遍历模型的子集并使用残差连接,多次回顾输入,从而细化预测。通过将GPT-2的版本与我们的循环残差模型进行比较的实验,展示了在保持类似参数数量的同时,在语言建模任务中提高了性能。重要的是,这些改进是在不需要额外训练数据的情况下实现的。

研究背景

大规模语言模型(如GPT)的成功归功于它们能够有效地预测序列中的下一个token。然而,这些模型在预测时不论所预测token的复杂性或歧义性如何,都依赖于恒定的计算量,缺乏迭代细化的能力。

问题与挑战

现有模型执行单次前向传播以预测下一个token,这限制了它们进行迭代细化的能力。特别是,它们依赖于恒定的计算量,而不考虑正在预测的token的复杂性或歧义性。

创新点

  • 新颖架构:引入了循环残差机制,在不增加参数数量的情况下增强了模型性能。
  • 效率:通过利用更长的推理时间,模型在不需要额外训练数据的情况下实现了更好的性能。
  • 可扩展性:该方法适用于大规模神经网络,并且在与GPT-2相当的模型上展示了有效性。

算法模型

循环残差模型引入了一种迭代机制,通过多次循环遍历transformer块,并使用残差连接来细化隐藏状态。该过程定义为:[x(n) = x(n-1) + f_\theta(x(n-1))],其中(x(n))是第n次迭代的隐藏状态,(x(0))是前一层或嵌入层的初始隐藏状态,(f_\theta)是由参数θ参数化的函数,包括循环遍历的transformer块预测残差。
在这里插入图片描述

实验效果

  • 实验一:Loop-Residual GPT2-81M模型在OpenWebText数据集上达到了3.11的验证损失,与GPT-2-124M模型的3.12损失相当。
  • 实验二:Loop-Residual GPT2-45M模型与Lite GPT-2-45M模型相比,验证损失从3.98降低到3.67,训练损失从3.96降低到3.65。

推荐阅读指数:★★★★☆

推荐理由

  • 创新性:提出了一种新颖的循环残差机制,通过迭代细化来提高模型性能,而无需增加参数数量。
  • 实用性:实验表明,该方法可以在不增加模型大小或额外数据的情况下,通过延长推理时间来提高性能。

9. LLMs are One-Shot URL Classifiers and Explainers

Authors: Fariza Rashid, Nishavi Ranaweera, Ben Doyle, Suranga Seneviratne
https://arxiv.org/abs/2409.14306
在这里插入图片描述

LLMs作为一次性URL分类器和解释器

摘要

本文探讨了如何使用大型语言模型(LLMs)来解决网络安全中恶意URL分类的问题。现有的基于机器学习和深度学习的方法通常因为缺乏代表性的训练数据集而面临泛化和领域适应问题。此外,这些模型无法用自然人类语言提供给定URL分类的解释。文章提出了一种基于LLM的一次性学习框架,使用链式推理(Chain-of-Thought, CoT)预测给定URL是良性还是网络钓鱼。实验表明,该框架与监督模型性能相近,且无需额外训练数据。

研究背景

网络安全领域中,电子邮件和短信等渠道的网络钓鱼攻击仍然是一个重大问题。现有的黑名单和白名单方法在大规模和动态环境中检测网络钓鱼攻击效果不佳。因此,提出了基于机器学习的方法来检测钓鱼URL。

问题与挑战

现有的URL分类模型在不同数据源上的测试性能显著下降,主要是由于高误报率,表明对良性URL指标的理解不足。此外,现有模型通常缺乏可解释性,这对于用户意识和培训至关重要。

创新点

  • 提出了一种基于LLM的框架,利用CoT推理进行URL分类和解释。
  • 评估了五种最先进的LLM在三个URL数据集上的性能,并与现有的监督URL分类器进行了比较。
  • 展示了一次性方法在预测性能方面与监督设置的相似性,并提供了自然语言解释,增强了用户对良性和网络钓鱼URL特征的认识。

算法模型

文章提出了一种基于LLM的一次性学习框架,该框架通过CoT推理来预测URL是良性还是网络钓鱼。模型通过迭代循环和残差连接来细化预测。

实验效果

在这里插入图片描述

实验结果显示,GPT-4 Turbo在所有评估的LLMs中表现最佳,平均F1分数为0.92,仅比完全监督设置低0.07。这表明该方法在不需要额外训练数据的情况下,能够与监督学习方法相媲美。

推荐阅读指数:

★★★★☆

推荐理由

  • 创新性:文章提出了一种结合了LLM和CoT推理的新方法,用于URL分类和解释,这是对现有技术的有益补充。
  • 实用性:实验结果表明,该方法在预测性能上与监督学习模型相当,同时提供了有助于用户理解的解释,这对于实际应用是非常有价值的。

10. Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort

Authors: Yuxing Zhi, Yuan Guo, Kai Yuan, Hesong Wang, Heng Xu, Haina Yao, Albert C Yang, Guangrui Huang, Yuping Duan
https://arxiv.org/abs/2409.14478
在这里插入图片描述

大型语言模型能否逻辑预测心肌梗塞?基于英国生物银行队列的评估

摘要

本研究旨在定量评估最先进的通用大型语言模型(如ChatGPT和GPT-4)是否能够通过逻辑推理预测心肌梗塞(MI)的风险,并将它们的表现与其他模型进行比较,以全面评估LLMs的性能。

研究背景

大型语言模型(LLMs)在临床决策支持中的应用取得了显著进展,但目前对于LLMs在提供基于现实世界医疗数据的准确临床决策方面的潜力和局限性,尚需高质量的证据。

问题与挑战

如何验证LLMs是否能够逻辑地提供准确的临床诊断,尤其是在处理心脏病发作风险预测这类临床决策支持任务时。

创新点

  • 使用来自英国生物银行数据库的数据,将风险因素的表格数据转换为标准化文本描述,用于ChatGPT识别。
  • 利用“思维链”(Chain of Thought, CoT)提问方法,评估LLMs是否进行逻辑推理预测。
  • 将ChatGPT和GPT-4的预测性能与传统机器学习模型和其他大型语言模型进行比较。

算法模型

  • ChatGPT:基于GPT-3.5的模型,以对话形式提供医疗健康问题的回答。
  • GPT-4:比ChatGPT更先进的模型,提供更精确、更具上下文相关性的回答。

实验效果

  • ChatGPT和GPT-4在预测心肌梗塞方面的性能表现不佳,AUC值分别为0.62和0.69。
  • 使用CoT方法并没有显著提高ChatGPT和GPT-4的性能。
  • 与传统机器学习模型相比,ChatGPT和GPT-4的性能较差,但与其他LLMs表现相似。

重要数据与结论

  • ChatGPT和GPT-4在预测心肌梗塞风险的任务中,性能未能满足临床应用的预期。
  • 尽管GPT-4在灵敏度上表现更好,但ChatGPT和GPT-4均未能展现出对医疗知识的深入理解和逻辑推理能力。

推荐阅读指数:

★★☆☆☆

推荐理由

  • 研究意义:探讨了LLMs在临床决策支持中的应用潜力,这是当前人工智能领域的一个热点问题。
  • 方法创新:采用了CoT方法来评估模型的逻辑推理能力,这是一种新颖的尝试。
  • 局限性:研究结果表明,目前的LLMs在处理复杂的临床决策任务时仍存在局限性,未能达到临床应用的标准。

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/886239.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

kubeadm部署k8s集群,版本1.23.6;并设置calico网络BGP模式通信,版本v3.25--未完待续

1.集群环境创建 三台虚拟机,一台master节点,两台node节点 (根据官网我们知道k8s 1.24版本之后就需要额外地安装cri-dockerd作为桥接才能使用Docker Egine。经过尝试1.24后的版本麻烦事很多,所以此处我们选择1.23.6版本) 虚拟机环境创建参考…

Webstorm 中对 Node.js 后端项目进行断点调试

首先,肯定需要有一个启动服务器的命令脚本。 然后,写一个 debug 的配置: 然后,debug 模式 启动项目和 启动调试服务: 最后,发送请求,即可调试: 这几个关键按钮含义: 重启…

Geoserver关于忘记密码的解决方法

第一次安装后,如果你设置密码那一栏一直都是默认的话,那么登录密码应该是账户 admin,密码 geoserver 但是,如果你自己设置了密码和账户,登录又登录不上,或者忘记了,有以下方法可以解决。 本质…

CSS——文字闪烁效果

CSS——文字闪烁效果 今天来完成一个文字闪烁的动态效果&#xff0c;具体呈现效果如下&#xff1a; 文字闪烁动态效果 实现步骤 基础的样式 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"vi…

收单外包机构备案分析及建议

2020年9月16日&#xff0c;中国支付清算协会&#xff08;下称“中支协”或“协会”&#xff09;公示了首批收单外包服务机构备案名单。历经5年&#xff0c;约进行50次公示后&#xff0c;截至9月21日共备案收单外包机构32457家&#xff0c;取消备案机构316家&#xff0c;拟取消机…

8642 快速排序

### 思路 快速排序是一种分治算法&#xff0c;通过选择一个基准元素将数组分成两部分&#xff0c;然后递归地对每部分进行排序。每次分区后输出当前排序结果。 ### 伪代码 1. 读取输入的待排序关键字个数n。 2. 读取n个待排序关键字并存储在数组中。 3. 对数组进行快速排序&am…

【路径规划】基于球向量的粒子群优化(SPSO)算法在无人机路径规划中的实现

摘要 本文介绍了基于球形矢量的粒子群优化&#xff08;Spherical Particle Swarm Optimization, SPSO&#xff09;算法&#xff0c;用于无人机&#xff08;UAV&#xff09;路径规划。SPSO算法通过引入球形矢量的概念&#xff0c;增强了粒子群在多维空间中的探索和利用能力&…

安全中心 (SOC) 与 网络运营中心 (NOC)

NOC 和 SOC 之间的区别 网络运营中心 (NOC) 负责维护公司计算机系统的技术基础设施&#xff0c;而安全运营中心 (SOC) 则负责保护组织免受网络威胁。 NOC 专注于防止自然灾害、停电和互联网中断等自然原因造成的网络干扰&#xff0c;而 SOC 则从事监控、管理和保护。 NOC 提…

Junit和枚举ENUM

断言机制&#xff0c;JAVA中的断言机制是一种用于检查程序中某个条件是否为真的机制。它可以在程序运行时检查某个条件是否满足&#xff0c;如果不满足则会抛出AssertionError异常。 在java中,断言机制默认是关闭的。所以会输出u。 断言机制只是为了用来吃调试程序的&#xff0…

Electron 安装以及搭建一个工程

安装Node.js 在使用Electron进行开发之前&#xff0c;需要安装 Node.js。 官方建议使用最新的LTS版本。 检查 Node.js 是否正确安装&#xff1a; # 查看node版本 node -v # 查看npm版本 npm -v注意 开发者需要在开发环境安装 Node.js 才能编写 Electron 项目&#xff0c;但是…

C++中stack和queue的模拟实现

目录 1.容器适配器 1.1什么是适配器 1.2STL标准库中stack和queue的底层结构 1.3deque的简单介绍 1.3.1deque的原理介绍 1.3.2deque的优点和缺陷 1.3.3deque和vector进行排序的性能对比 1.4为什么选择deque作为stack和queue的底层默认容器 2.stack的介绍和模拟…

MybatisPlus代码生成器的使用

在使用MybatisPlus以后&#xff0c;基础的Mapper、Service、PO代码相对固定&#xff0c;重复编写也比较麻烦。因此MybatisPlus官方提供了代码生成器根据数据库表结构生成PO、Mapper、Service等相关代码。只不过代码生成器同样要编码使用&#xff0c;也很麻烦。 这里推荐大家使…

【ios】---swift开发从入门到放弃

swift开发从入门到放弃 环境swift入门变量与常量类型安全和类型推断print函数字符串整数双精度布尔运算符数组集合set字典区间元祖可选类型循环语句条件语句switch语句函数枚举类型闭包数组方法结构体 环境 1.在App Store下载Xcode 2.新建项目&#xff08;可以先使用这个&…

JSR303微服务校验

一.创建idea 二.向pom.xml添加依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.0.7.RELEASE</version></parent><properties><java.vers…

SpringCloud-基于Docker和Docker-Compose的项目部署

一、初始化环境 1. 卸载旧版本 首先&#xff0c;卸载可能已存在的旧版本 Docker。如果您不确定是否安装过&#xff0c;可以直接执行以下命令&#xff1a; sudo yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logro…

数字化那点事:一文读懂数字孪生

一、数字孪生的定义 数字孪生&#xff08;Digital Twin&#xff09;是指通过数字技术构建的物理实体的虚拟模型&#xff0c;能够对该实体进行全方位、动态跟踪和仿真预测。简单来说&#xff0c;数字孪生就是在一个设备或系统的基础上创造一个数字版的“克隆体”&#xff0c;这…

【RADARSAT Constellation Mission(RCM)卫星星座简介】

RADARSAT Constellation Mission&#xff08;RCM&#xff09;卫星星座是加拿大太空局&#xff08;CSA&#xff09;的下一代C波段合成孔径雷达&#xff08;SAR&#xff09;卫星星座&#xff0c;以下是对其的详细介绍&#xff1a; 一、基本信息 发射时间&#xff1a;2019年6月…

在Linux系统安装Nginx

注意&#xff1a;Nginx端口号是80(云服务器要放行) 我的是基于yum源安装 安装yum源(下面这4步就好了) YUM源 1、将源文件备份 cd /etc/yum.repos.d/ && mkdir backup && mv *repo backup/ 2、下载阿里源文件 curl -o /etc/yum.repos.d/CentOS-Base.repo ht…

Adobe PR与AE的区别与联系(附网盘地址)

从事视频后期制作的小伙伴&#xff0c;对于PR&#xff08;Premiere&#xff09;和AE&#xff08;After Effects&#xff09;应该不会陌生。随着短视频的兴起&#xff0c;就连我们普通用户&#xff0c;拍摄完视频&#xff0c;都会去糟取精的剪辑一下&#xff0c;而PR正是一款功能…

【分布式微服务云原生】windows+docker+mysql5.7.44一主一从主从复制

目录 1. 主库设置2. 从库设置3. 验证主从复制内容汇总表格 摘要&#xff1a; 在Windows系统上通过Docker部署MySQL主从复制&#xff0c;以下是详细的步骤和命令&#xff0c;帮助你设置一主一从的MySQL复制环境。 1. 主库设置 步骤1&#xff1a;运行MySQL主库容器 docker run …