【LLM之KG】CoK论文阅读笔记

研究背景

大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

研究目标

本研究提出了一种新的链式知识(Chain-of-Knowledge, CoK)提示方法,通过引导LLMs生成明确的知识证据来提高推理能力。具体来说,CoK提示由证据三元组(CoK-ET)和解释提示(CoK-EH)组成,旨在生成明确的知识证据和解释,以支持逐步思考过程。同时,引入了F2验证方法来评估推理链的真实性和可靠性。

相关工作

在上下文学习(ICL)方面,已有研究探索了多种影响ICL效果的因素,如输入输出映射和模板格式。链式思维(CoT)提示方法被提出用于增强推理,通过生成中间推理步骤来指导LLMs生成可靠的响应。为了进一步提高推理能力,研究人员提出了多种基于CoT的方法,包括自一致性、思维程序和验证方法等。

方法论

数据处理

在示例构建过程中,首先随机选择多个带标签的示例,并使用零样本CoT方法生成文本推理链。然后,从预构建的知识库中检索相关的知识三元组,并邀请专家对其进行人工注释,以形成结构化的证据三元组。

解决方案

提出的CoK提示方法包括两部分:证据三元组(CoK-ET)和解释提示(CoK-EH)。CoK-ET表示多个三元组的列表,每个三元组代表从LLM中提取的知识证据,支持逐步思考过程。CoK-EH表示推理链的解释,与传统的CoT相似。此外,设计了F2验证策略,用于评估推理链的真实性和可靠性,并通过重新思考过程来修正错误的证据。
在这里插入图片描述
举个例子:
用户输入:下面这句话有道理吗?“德里克·怀特反手击球“。

Cok思考链路:
先生成证据三元组:
证据1:(德里克·怀特,职业,篮球运动员)
证据2: (反手击球,常用于,曲棍球或网球)

再生成解释提示:
反手击球通常用于曲棍球或网球,而不是篮球。

根据证据三元组和解释提示,生成初步答案:
A: “No.”

F2验证:
事实性验证(Factuality Verification):
验证生成的证据三元组是否与真实知识库(KB)中的知识匹配。
例如,验证(德里克·怀特,职业,篮球运动员)、(反手击球,常用于,曲棍球或网球)是否在知识库中存在。

忠实性验证(Faithfulness Verification):验证推理过程和最终答案的解释是否一致。
使用预构建的句子编码器(例如SimCSE)计算解释提示和推理过程的相似性分数。

重新思考:
如果初步答案的可靠性分数低于阈值(θ),则通过重新生成和修正错误的证据三元组来提高答案的可靠性。
例如,错误的证据三元组会被标记并替换为正确的知识三元组,再次生成新的解释提示和答案。

最终,模型输出经过F2验证和重新思考过程后,生成的最终答案为:
A: “No.”

实验

实验设计

实验选择了五种不同类型的任务来评估方法的性能,包括常识与事实推理、算术推理和符号推理。具体任务包括CommonsenseQA(CSQA)、StrategyQA、OpenBookQA、AI2推理挑战(ARC-c)、体育理解和BoolQ等。
在这里插入图片描述
对比模型包括zero-shot、few-shot、Chain of thought、Zero-shot-CoT、Mannual-shot-Cot、Auto-CoT等多个。

实验结论

实验结果表明,CoK提示方法在多个任务上显著优于标准的ICL和CoT提示方法,特别是在常识和事实推理、符号推理和算术推理任务上。通过F2验证和重新思考过程,进一步提高了推理链的可靠性和准确性。这表明,明确的证据三元组和解释提示能够显著提升LLMs的推理能力。

参考资料

  • 论文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/738906.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spire.PDF for .NET【文档操作】演示:设置 PDF 文档的 XMP 元数据

XMP 是一种文件标签技术,可让您在内容创建过程中将元数据嵌入文件本身。借助支持 XMP 的应用程序,您的工作组可以以团队以及软件应用程序、硬件设备甚至文件格式易于理解的格式捕获有关项目的有意义的信息(例如标题和说明、可搜索的关键字以及…

无源编缆测尺助力料场实现自动化堆取料作业

随着工业4.0时代的到来,智能化、无人化成为现代工业发展的重要趋势。在港口码头、钢铁冶金、焦化等高耗能行业中,如何实现物料的精准测量与无人化操作,成为企业提高生产效率、降低人工成本的关键。武汉市微深节能科技有限公司凭借其先进的分段…

如何配置taro

文章目录 step1. 全局安装wepacksetp2. 使用npm安装tarostep3. 项目初始化可能出现的问题 使用taro时需要在本地配置好nodejs环境,关于如何配置nodejs可参考我的这篇博文 如何配置nodejs环境 step1. 全局安装wepack 使用指令npm install webpack -g即可 安装完成…

电脑不小心删除的文件怎么恢复?4个必备恢复方法!

“刚刚在对电脑里的某些垃圾文件进行清理时,我一不小心误删了比较重要的数据。这些误删的数据还有机会恢复吗?希望大家帮帮我,非常感谢!” 在这个数字化飞速发展的时代,电脑早已成为我们日常生活和工作中不可或缺的一部…

【arm扩容】docker load -i tar包 空间不足

背景: 首先我在/home/nvidia/work下导入了一些镜像源码tar包。然后逐个load进去。当我 load -i dev-aarch64-18.04-20210423_2000.tar包的时候,出现 Error processing tar file(exit status 1): write /9818cf5a7cbd5a828600d9a4d4e62185a7067e2a6f2ee…

如何解决app广告填充率低、广告填充异常,提升广告变现收益?

APP广告变现有助于开发者获得持续的收益来源,由于广告链路的封闭性和复杂化,一旦出现请求配置参数错误、返回广告源信息缺失、素材被拦截等异常,大部分开发者很难及时查清异常情况,导致广告填充率不理想,甚至填充率常常…

KUBIKOS - Cube Monsters

KUBIKOS - Cube Monsters 是一系列 18 个不同的可爱低多边形移动友好怪物角色!每个角色都有自己的动画集。(移动、空闲、攻击、击中、跳跃等)。 +URP支持+18种不同的动物! + 低多边形(400~900个三角形) + 操纵和动画! + 4096x4096 纹理图集 + Mecanim 准备就绪! + 移动…

【第十三课】区域经济可视化表达——符号表达与标注

一、前言 地图最直接的表达就是使用符号表达。使用符号可以把简单的点线面要 素渲染成最直观的地理符号,提高地图的可读性。只要掌握了 ArcGIS 符号制 作的技巧,分析符号并总结出规则,就可以制作符合要求的地图符号。 (一&#…

关于正点原子stm32f103精英板v1的stlink通信失败问题解决方案

由于最新的固件不适配,我们要想其工作要下载007的固件。 https://www.st.com/en/development-tools/stsw-link007.html?dlredirect 版本选择最低的。然后选择windows文件夹,更新程序 然后进keil就能正常识别到了

在线装修管理系统的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,装修队管理,用户管理,装修管理,基础数据管理,论坛管理 前台账户功能包括:系统首页,个人中心,…

不要升级mmkv1.3.5

腾讯有点不负责任的感觉。1.3.5开始直接ban掉了v1.3.5 / 2024-04-24 Drop armv7 & x86 support.,x86和v7a的支持(大概率是这个原因)。 从打包后的包解压可以看到,只有arm64-v8a和x64目录里面有库。而1.3.4打包解压后&#x…

计算机软件著作权申请流程及费用_快速登记_经验分享收藏级教程

最近需要申请计算机软件著作权,申请流程走了一遍,整理了分享给大家。软件著作权申请流程及费用,软著快速登记、软著材料及问题解答FAQ,阿里云百科阿里云计算机软件著作权登记20天下证,那么如何申请阿里云软件著作权登记…

社交电商商业模式有哪些,2024火爆的模式玩法优势,新零售小程序系统

商业模式一个企业能够盈利的最最重要的问题,如何强调都不过分,先例举几个相对简单的商业模式: 1、二二裂变模式 购买一单成为代理之后,获得推荐资格每次分享获得直推奖励20%,推荐2个代理成为团长,获得体检…

【机器学习】半监督学习可以实现什么功能?

目录 一、什么是机器学习二、半监督学习算法介绍三、半监督学习算法的应用场景四、半监督学习可以实现什么功能? 一、什么是机器学习 机器学习是一种人工智能技术,它使计算机系统能够从数据中学习并做出预测或决策,而无需明确编程。它涉及到…

华为---OSPF的DR与BDR(六)

9.6 OSPF的DR与BDR 9.6.1 原理概述 在OSPF的广播类型网络和NBMA类型网络中,如果网络中有n台路由器,若任意两台路由器之间都要建立邻接关系,则需要建立n(n-1)/2个邻接关系,即当路由器很多时,则需要建立和维护的邻接关…

express+vue在线im实现【三】

往期内容 expressvue在线im实现【一】 expressvue在线im实现【二】 本期示例 本期总结 支持各种类型的文件上传,常见文件类型图片,音频,视频等,上传时同步获取音频与视频的时长,以及使用上传文件的缓存路径来作为vi…

51-60 CVPR 2024 最佳论文 | Generative Image Dynamics

在2023年11月,谷歌研究院发布了一项令人瞩目的研究成果——Generative Image Dynamics(生成图像动力学)。这项技术的核心是将静态的图片转化为动态的、无缝循环的视频,而且更令人兴奋的是,这些生成的视频还具有交互性。…

蓝牙ble数传芯片推荐,TD5327A芯片蓝牙5.1—拓达半导体

蓝牙数传芯片TD5327A芯片是一款支持蓝牙BLE的纯数传芯片,蓝牙5.1版本。芯片的亮点在于性能强,除了支持APP端直接对芯片做设置与查询操作,包括直接操作蓝牙芯片自身的IO与PWM口以外,还支持RTC日历功能,可以做各类定时类…

LeetCode:经典题之141、142 题解及延伸

系列目录 88.合并两个有序数组 52.螺旋数组 567.字符串的排列 643.子数组最大平均数 150.逆波兰表达式 61.旋转链表 160.相交链表 83.删除排序链表中的重复元素 389.找不同 1491.去掉最低工资和最高工资后的工资平均值 896.单调序列 206.反转链表 92.反转链表II 141.环形链表 …

Ps:转换为配置文件

Ps菜单:编辑/转换为配置文件 Edit/Convert to Profile 转换为配置文件 Convert to Profile命令可用于在不同色彩空间之间转换图像的颜色配置文件,从而确保在不同设备和介质上颜色的一致性和准确性。 ◆ ◆ ◆ 工作原理说明 当将图像的配置文件从一种转…