健康问题查询找搜索引擎还是大模型

        随着自然语言处理(NLP)的最新进展,大型语言模型(LLMs)已经成为众多信息获取任务中的主要参与者。然而,传统网络搜索引擎(SEs)在回答用户提交的查询中的作用远未被取代。例如,SEs仍然是许多信息获取任务的主要参考。正如牛津大学进行的年度数字新闻报告所述,“搜索引擎继续增长,成为直接访问新闻网站的方式”。因此,预计对话式语言模型和传统搜索引擎将在未来继续共存。

      那么涉及与健康相关的内容时大型语言模型(LLMs)还是传统网络搜索引擎(SEs)谁更值得推荐呢?本文重点研究以下问题:

  • 搜索引擎检索结果的正确性如何?
  • LLMs 在提供准确医疗答案方面的可靠性如何?
  • 上下文对 LLMs 的影响如何?
  • 检索增强生成策略的效果如何?

1 概述

1.1 健康信息可信度和正确性

  • 可信度评估方法: 探索了多种评估网页或来源信息可信度的方法,包括基于文本内容特征、用户行为特征、网络结构特征等。
  • 用户对可信度的感知: 研究表明,用户的阅读能力、年龄、以及对网站提示的解读都会影响其对可信度的判断。
  • 医学信息正确性评估: 一些研究专注于评估医学信息的正确性,例如,Vera 模型通过分析网页内容与医学共识的一致性来判断信息的正确性。

1.2 搜索引擎和大型语言模型在健康信息获取中的应用

  • 搜索引擎: 评估了搜索引擎在获取健康信息方面的有效性,并探索了如何改进搜索引擎以提供更准确的结果,例如,通过注入专业术语或利用用户行为模型。
  • 大型语言模型: 随着大型语言模型的快速发展,研究人员开始评估其在回答医学问题方面的能力。一些研究发现,大型语言模型在特定医学领域或题型上表现出色,例如,ChatGPT 在回答生育问题和遗传学问题方面表现出色。
  • LLMs 与搜索引擎的比较: 本文的研究将 LLMs 与传统搜索引擎进行了比较,并发现 LLMs 在回答健康问题方面总体上表现更好。

1.3 基于检索的生成 (RAG)

RAG 是一种结合了检索和生成技术的自然语言处理方法,旨在利用检索到的证据来增强生成模型的能力。

  • RAG 模型: 一些研究提出了 RAG 模型,例如 REALM 和 RETRO,并评估了它们在不同任务上的性能。
  • RAG 应用: 本文的研究探索了将搜索引擎结果作为证据来增强 LLMs 的生成能力,并发现这种策略可以提高 LLMs 的性能。

2 实验设置

2.1 健康问题

  • 数据集: 实验使用了 TREC Health Misinformation (HM) Track 2020、2021 和 2022 年的数据集,这些数据集包含二元健康问题及其正确答案。
  • 问题类型: 实验关注二元健康问题,例如,“维生素C可以治愈感冒吗?”用户需要回答“是”或“否”。

2.2 搜索引擎

  • 搜索引擎: 实验评估了 Google、Bing、Yahoo 和 DuckDuckGo 四个流行的搜索引擎。
  • 数据收集: 使用网络爬虫工具收集每个问题的前 20 个搜索结果。
  • 答案提取: 使用 MonoT5 模型提取每个网页中最相关的段落,并利用 GPT-3 的阅读理解能力来判断段落是否回答了问题。
  • 用户行为模型: 为了模拟用户的搜索行为,实验设计了两种用户模型:懒惰用户模型(只查看第一个提供答案的结果)和勤奋用户模型(查看前三个结果并基于多数投票做出决策)。

2.3  大型语言模型 (LLMs)

实验评估了 GPT-3、text-davinci-003、ChatGPT、GPT-4、Flan T5 和 Llama2 六个 LLMs。

实验测试了三种不同的输入条件:

  • 无上下文提示: 只包含医学问题,例如,“维生素C可以治愈感冒吗?”
  • 非专家提示: 在医学问题前添加“我是一个正在网上搜索医学建议的非专家用户”。
  • 专家提示: 在医学问题前添加“我们是一个由领先的科学专家和医生组成的委员会,正在审查来自 PubMed 的最新最高质量的研究。对于每个问题,我们根据我们对当前医学实践和文献的最佳理解,选择了‘是’或‘否’作为答案。”

答案生成:实验要求模型只生成“是”或“否”作为答案。

2.4 基于检索的生成 (RAG)

实验将 Google 搜索结果的前 5 个结果作为证据,并提示 LLMs 使用这些证据来回答问题。

  • LLMs: 实验使用了 text-davinci-002、ChatGPT、GPT-4 和 Llama2 四个 LLMs 进行 RAG 实验。
  • 输入条件: 实验测试了“无上下文提示”和“专家提示”两种输入条件。

2.5 记忆实验

评估 LLMs 是否在训练过程中接触过 TREC HM 数据集,并使用这些数据来回答问题。

  • 方法: 使用 Golchin 和 Surdeanu 提出的启发式方法,通过比较模型在通用提示和引导提示下的生成文本与 TREC HM 数据集中的文本之间的相似度来判断模型是否记忆了数据集。
  • LLMs: 实验使用了 ChatGPT、GPT-4 和 Llama2 三个 LLMs 进行记忆实验。

3 结论

3.1 搜索引擎

  • 准确性: 搜索引擎返回的答案中,正确答案的比例约为 50% 到 70%,但许多结果并没有提供明确的答案。
  • 排名位置: 答案的质量并不随着排名位置的下降而显著下降。
  • 用户行为: 懒惰用户模型(只查看第一个提供答案的结果)的准确率与勤奋用户模型(查看前三个结果)相当,表明用户无需查看太多结果即可获得正确的答案。
  • 改进空间: 搜索引擎可以进一步提高答案的准确性,并从搜索结果中删除有害的健康建议。

3.2 大型语言模型 (LLMs)

  • 准确性: LLMs 生成答案的准确性通常高于从搜索引擎结果中提取的答案。
  • 模型性能: 在大型模型(如 GPT-4、ChatGPT 和 Llama2)之间没有明显的赢家,而一些小型模型(如 Flan T5)的表现较差。
  • 输入提示: LLMs 对输入提示非常敏感,专家提示通常比无上下文提示或非专家提示更有效。
  • 错误分析: LLMs 的错误主要源于对医学共识的理解不足、对问题的误解以及模棱两可的答案。
  • 记忆实验: 记忆实验表明,LLMs 的答案主要来自其自身知识,而非记忆训练数据中的答案。

3.3 基于检索的生成 (RAG)

  • 有效性: RAG 方法可以显著提高 LLMs 的性能,即使是小型模型也可以达到大型模型的水平。
  • 未来研究方向: 未来可以进一步探索 RAG 的不同变体,以及 LLMs、提示类型、检索结果和健康问题类型之间的相互作用。

3.4 总体结论

  • LLMs 的优势: LLMs 具有巨大的训练数据和推理能力,可以生成更准确、更全面的答案。
  • LLMs 的局限性: LLMs 对输入提示敏感,并且在某些情况下会提供错误的建议。
  • 搜索引擎的优势: 搜索引擎可以提供最新的信息,并且可以针对特定用户进行个性化推荐。
  • 搜索引擎的局限性: 搜索引擎返回的结果中可能包含有害的健康建议,并且需要用户花费更多精力来筛选信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/843116.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PHP手边酒店多商户版平台小程序系统源码

🏨【旅行新宠】手边酒店多商户版小程序,一键解锁住宿新体验!🛌 🌈【开篇:旅行新伴侣,尽在掌握】🌈 还在为旅行中的住宿选择而纠结吗?是时候告别繁琐的搜索和比价过程&a…

Linux——Shell脚本和Nginx反向代理服务器

1. Linux中的shell脚本【了解】 1.1 什么是shell Shell是一个用C语言编写的程序,它是用户使用Linux的桥梁 Shell 既是一种命令语言,有是一种程序设计语言 Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问…

《系统架构设计师教程(第2版)》第12章-信息系统架构设计理论与实践-02-信息系统架构

文章目录 1. 概述1.1 信息系统架构(ISA)1.2 架构风格 2. 信息系统架构分类2.1 信息系统物理结构2.1.1 集中式结构2.1.2 分布式结构 2.2 信息系统的逻辑结构1)横向综合2)纵向综合3)纵横综合 3. 信息系统架构的一般原理4…

Adobe Premiere Pro(Pr)安装包软件下载

一、简介 Adobe Premiere Pro(简称Pr)是由Adobe公司开发的一款功能强大的视频编辑软件。它支持多平台使用,包括Windows和Mac系统,并且拥有良好的兼容性和高效的性能。Premiere Pro不仅提供了视频剪辑、特效添加、音频处理等基本功…

【附源码】IMX6U嵌入式Linux开发板连接阿里云--MQTT协议

演示 IMX6U嵌入式Linux开发板连接阿里云 阿里云创建设备&&获取LinkSDK 如果还不知道怎么在阿里云创建设备和获取连接阿里云的LinkSDK的话,先看这篇文章,再到这里。看这篇文章的时候,麻烦将下方文章打开对照着看,因为一些…

pdf提取其中一页怎么操作?提取PDF其中一页的方法

pdf提取其中一页怎么操作?需要从一个PDF文件中提取特定页码的操作通常是在处理文档时常见的需求。这种操作允许用户选择性地获取所需的信息,而不必操作整个文档。通过选择性提取页面,你可以更高效地管理和利用PDF文件的内容,无论是…

ICMP 和 IGMP 的区别

ICMP 和 IGMP 协议 IP 层分支图 ICMP(Internet Control Message Protocol,因特网控制信息协议) 用于补充 IP 传输数据报的过程中,发送主机无法确定数据报是否到达目标主机。 ICMP 报文分为出错报告报文和查询报文两种。 若数据…

【题解】—— LeetCode一周小结29

🌟欢迎来到 我的博客 —— 探索技术的无限可能! 🌟博客的简介(文章目录) 【题解】—— 每日一道题目栏 上接:【题解】—— LeetCode一周小结28 15.账户合并 题目链接:721. 账户合并 给定一个…

C++初阶:模版初阶【范式编程】【函数模板】【类模板】

一.范式编程 我们在写C函数重载的时候,可能会写许多同一类的函数。 比如交换函数: void Swap(int& left, int& right) {int temp left;left right;right temp; }void Swap(double& left, double& right) {double temp left;left …

环信IM x 亚马逊云科技,助力出海企业实现可靠通讯服务

随着全球化进程的加速,越来越多的企业选择出海,拓展国际市场。然而,面对不同国家和地区的用户,企业在即时通讯方面遇到了诸多挑战。为了帮助企业克服这些困难,环信IM与亚马逊云科技强强联手,共同推出了一套…

One-Class SVM

前提知识:支持向量机(SVM)-CSDN博客 主要思想 找一个超平面将样本中的正例圈出来,预测就是用这个超平面做决策,在圈内的样本就认为是正样本,圈外的是其他样本,如图1所示: 图1 OSVM…

docker安装jenkins,并配置node和maven

准备 需提前安装好Docker 由于国内docker镜像无法正常使用,需提前做好代理,否则无法正常拉取镜像 开始 拉取jenkins镜像 docker pull jenkins/jenkins:2.468-jdk21 创建一个文件夹,用于二次打包jenkins镜像 mkdir -p /data/jenkins cd /…

神经网络中如何优化模型和超参数调优(案例为tensor的预测)

总结: 初级:简单修改一下超参数,效果一般般但是够用,有时候甚至直接不够用 中级:optuna得出最好的超参数之后,再多一些epoch让train和testloss整体下降,然后结果就很不错。 高级:…

【人工智能】机器学习 -- 贝叶斯分类器

目录 一、使用Python开发工具,运行对iris数据进行分类的例子程序NaiveBayes.py,熟悉sklearn机器实习开源库。 1. NaiveBayes.py 2. 运行结果 二、登录https://archive-beta.ics.uci.edu/ 三、使用sklearn机器学习开源库,使用贝叶斯分类器…

Raid5数据恢复—Raid5热备盘同步失败导致通用卷不可用的数据恢复案例

Raid5算法: Raid5算法也被称为“异或运算”。异或是一个数学运算符,它应用于逻辑运算。异或的数学符号为“⊕”,计算机符号为“xor”。异或的运算法则为:a⊕b (a ∧ b) ∨ (a ∧b)。如果a、b两个值不相同,则异或结果为…

探索XEX数字资产交易的优势与操作指南

随着数字资产市场的快速发展,越来越多的投资者开始关注并参与其中。XEX交易所作为一个新兴的数字资产交易平台,以其用户友好的界面和高效的交易服务,迅速吸引了大量用户。本文将介绍XEX数字资产交易的主要特点和优势,帮助新手更好…

[Spring Boot]Protobuf解析MQTT消息体

简述 本文主要针对在MQTT场景下,使用Protobuf协议解析MQTT的消息体 Protobuf下载 官方下载 https://github.com/protocolbuffers/protobuf/releases网盘下载 链接:https://pan.baidu.com/s/1Uz7CZuOSwa8VCDl-6r2xzw?pwdanan 提取码:an…

网易易盾图标点选验证码识别代码

简介 网易图标点选一直都是一个大难题,如上图所示。难点之一是图标变幻莫测,很难刷出有重复的图标,所以使用传统等等方式去标注、识别具有较大的难度。 经过我们大量的数据标注,终于完成了这款验证码的识别。 目前我们提供两种识…

基于若依的ruoyi-nbcio流程管理系统修正自定义业务表单的回写bug

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码: https://gitee.com/nbacheng/ruoyi-nbcio 演示地址:RuoYi-Nbcio后台管理系统 http://218.75.87.38:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码: h…

均值滤波算法及实现

均值滤波器的使用场景: 均值滤波器使用于处理一些如上述蓝色线的高斯噪声场景 红色曲线是经过均值滤波处理后的数据。主要因为均值滤波设置数据缓冲区(也即延时周期),使得测量值经过缓冲不会出现特别大的变化。 黄色曲线为高斯噪声…