Google如何做医疗大模型(Med-Gemini)

1. 前言

开发垂直领域模型的方法有好几种,其中医疗、法律等专业是比较能体现模型垂直行业能力的,因此也深受各大厂商的重视。

五一小长假的第一天,Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.org/abs/2404.18416 ) 的论文。说明了微调Gemini模型在医学领域获得多项任务SoTA的成果和方法。论文全文长达58页,作者有30多号人,引用的文献列了10页。让人觉得是个大手笔之作,难免想一探究竟。一些新闻稿更是冠以《医疗AI的一大步》《Med-Gemini :医学大模型里程碑之作,Google今天发布,医学航母正式起航》等等标题。

在这里插入图片描述

受此吸引,花了一天时间认真读了论文。读完之后有些失落,总体感觉上是花了很多力气,具体的成果是为了体现Gemini模型自身能力而做的Demo。这时候才理解了论文题目的真正意思 。Capabilities of Gemini Models in Medicine ,注意Capabilities和Models是复数形式,主要研究的是Gemini这一系列模型在医学上的各种能力,并非是训练出了一个在医疗领域专门的模型。另外,可能是Google在开源方面吃亏吃得比较多,这个项目本身没有开源。不过不重要了,思路是比较关键的。

下面是对这篇论文的解读。水平所限,只能尽力而为。

2. 论文工作概述

论文的大体意思是这样的,如果AI想要医学应用中能够表现好,有几个方面的关键能力:

  • 高级推理能力,这不用解释,好的医生都是推理专家
  • 获取最新的医学知识能力(其实就是RAG),医学知识不断更新,需要用新的研究成果应用在诊断上
  • 理解复杂的多模态数据,因为医学诊断需要很多辅助的多模态数据,比如X光片,心电图等等
  • 长上下文能力,因为医学诊断要看很多病史数据,因此长文本很关键

恰好, Goolge的Gemini某些模型的长文本(Long Context)和多模态能力很不错,所以这个团队就利用这些基础能力,加上一些微调和Agent技术,开发了一系列针对医学领域应用的模型,统称为Med-Gemini。它的能力特点就是上面提到了几条,推理、多模态和长文本/网络检索能力。

这些能力是怎么得到检验的呢,目前有各种针对医学模型的评测(比如参加医生资格考试),Med-Gemini在14个医学基准测试中,有10个基准测试中达到了SoTA,并在每个可以直接比较的基准测试中超过了GPT-4模型家族,而且强调差的不是一点半点,通常领先好几个身位。

除了评测,Med-Gemini的还在医学文本总结和转诊信生成等任务中超越人类专家。(感觉这好像没啥值得一提的啊,换任何一个模型来都可以做到)。

重点需要说明的是, Med-Gemini不是一个模型,是一系列的模型。也就是说,不是在一个模型里实现了既有高级推理能力,又有多模态能力,而是在不同的模型里做到的。是不是一个模型也没那么关键,需要的是一个垂直系统,不是一个垂直模型。

那么是提升基础Gemini模型的能力,让它在医学领域的推理、多模态和长文本能力得到增强呢?不同的方面用了不同的方法:

  • 推理能力:通过自训练和网络搜索集成进行高级推理。这句话有点拗口,也是这篇文章为数不多的亮点,后面再详细解释。
  • 多模态:微调,用各种医疗X光片等数据进行微调。稍微创新点的地方是加了一个编码器,来适应例如心电图啥的其他模态的数据,这段基本上可以忽略;
  • 长上下文:这个更让人觉得是灌水,提出了一个新的inference-time chain-of-reasoning的提示方式,让模型以更好地理解长的电子健康记录(EHRs)。

拆解之后,这篇论文能看的也就只有推理增强部分。

3. 基础和微调模型的对应关系

因为所有的工作都是基于Google的Gemini基础模型之上的,因此先看看Gemini的模型列表。Gemini模型有1.0和1.5两个版本,每一个版本的模型里根据参数量的不同又分为Ultra,Pro和Nano三个档次,但是目前1.5还只有Pro版本。另外Nano是面向移动设备的。

图片

UltraProNano
1.5n/aPreview状态支持语音、图片和文字输入支持文本输出1M token输入上下文n/a
1.0文本模型文本输入,文本输出30K输入上下文文本模型
1.0 Vision多模态模型8k上下文支持图片和文字输入支持文本输出12K输入上下文n/a

下面是论文中的原图,说明了Med-Gemini是在Gemini模型的基础上,分别通过不同的技术手段增强了高级推理能力,多模态和长上下文处理能力而得到的。

图片

但是图上没有说明的是,其实是分别对好几个不同的模型进行了微调,根据文中描述,Med-Gemini和Gemini的对应关系如下:

任务基础模型医学模型技术手段
1无需复杂推理的语言任务Gemini 1.0 ProMed-Gemini-M 1.0微调
2需要高级推理的任务Gemini 1.0 UltraMed-Gemini-L 1.0自训练及不确定性引导搜索
3多模态Gemini 1.5 ProMed-Gemini-M 1.5微调
4长上下文Gemini 1.5 ProMed-Gemini-M 1.5提示工程(推理时推理链技术)
5多模态专用编码器Gemini 1.0 NanoMed-Gemini-S 1.0增加心电图专用编码器

前面提过,其实多模态和长上下文部分没什么特别的东西,有点价值的地方就是第2条,如何把Gemini 1.0 Ultra 训练到Med-Gemini-L 1.0。

3. 如何增加模型专业领域的推理能力

把Gemini 1.0 Ultra训练成为Med-Gemini-L 1.0的方法被作者称为Advanced reasoning via self-training and web search integration (通过自训练及Web搜索的高级推理)。

3.1 自训练方法介绍

这里解释一下自训练,自训练是一个种模型的训练方法,主要用于在标注数据比较少的情况。

假设我们想要训练一个模型来识别猫和狗的图片,但是我们只有少量的标注数据(例如,1000张标注过的猫和狗的图片)。我们希望模型能够泛化到更多的数据上,但是我们没有足够的资源来手动标注更多的图片。

自训练的过程有点武侠小说里左右脚互相踩,然后飞到高处的意思。过程如下:

  1. 初始训练:首先,我们使用已有的标注数据来训练我们的模型。这个模型可能是一个简单的卷积神经网络(CNN)。
  2. 未标注数据的预测:接下来,我们使用这个初步训练的模型来处理大量的未标注数据(例如,10000张未标注的猫和狗的图片)。
  3. 生成伪标签:模型会对这些未标注的图片进行预测,给出每张图片是猫还是狗的概率。我们可以选择置信度最高的预测作为伪标签。例如,如果模型预测某张图片是猫的概率为0.95,我们就可以认为这张图片是猫。
  4. 合并数据集:现在,我们将这些带有伪标签的未标注图片添加到我们的训练数据集中,与原始的标注数据一起形成一个新的、更大的数据集。
  5. 再次训练:最后,我们使用这个新的数据集来重新训练我们的模型。这次训练中,模型会同时学习来自标注数据和伪标签数据的知识。
  6. 迭代:我们可以重复这个过程,每次都使用最新训练的模型来为更多的未标注数据生成伪标签,并使用这些数据来进一步训练模型。

在论文中就采用这种方法来解决医学领域数据较少的问题。

3.2 制定训练目标

训练目标是增强基础模型在医学领域的推理能力,同时还需要能够在必要时通过网络搜索信息来支持自己的判断(实验中应该是指定了搜索的专业网站)。

因为临床诊断需要大量的复杂的推理过程,医生可能会对许多不同的输入进行推理,例如患者症状、医疗和活动史、实验室诊断、先前对治疗的反应以及其他更广泛的因素,例如流行病学数据。同时由于医学知识不断更新*,*理想情况下,医学大模型不仅需要具有强大的推理能力,而且还能够整合最新信息,例如来自权威网络的信息。

其实现在模型利用搜索工具已经没什么特别的了,大量的模型都能够集成搜索工具,关键是让模型准确的模仿医生的决策过程,知道什么时候该去搜索,搜索之后如何使用搜到的信息来支持决策。这需要进行微调。

3.3 收集和生成训练数据

如果需要微调训练就需要准备数据,最好是医生针对病例诊断的思考过程,但是收集这些数据非常困难。医生平时写个病历都是用画符的方式,更别提让他/她来告诉你诊断是怎么下的了。而且训练大模型需要大量的数据,因此训练数据的收集是比较困难的过程。

作者利用MedQA数据集进行了扩展,这个数据集里是一些医生资格考试的选择题。先让一些专家针对数据集里的问题写下自己推理的过程和依据,然后利用这些数据作为示例(应该就是few shot prompt),让模型模仿着去做题,并且要求它把推理过程写下来,如果选择题做错了,那么就把数据过滤掉,如果做对了就保留推理过程。这样就得到了大量可以用于训练的数据。

在生成数据的过程中,会提示模型生成两种数据,一种是不利用搜索,一种是利用搜索,两种方法得到了两种数据集MedQA-R 和 MedQA-RS。你可能会疑惑为什么要生成两种数据类型,没关系,到后面就明白了。

在这里插入图片描述

3.4 迭代训练

在生成的数据上微调Med-Gemini-L 1.0之后,模型遵循few shot prompt中的推理风格和搜索整合的能力得到提升。然后,使用改进的模型重新生成新的合成数据,并迭代重复这个自训练过程,直到模型的性能达到饱和。

3.5 推理

在推理过程中,作者用了一种叫Uncertainty-guided search at inference (不确定性引导搜索的推理)的方法来让模型决定什么时候应该去搜索网络内容来支持推理。

在这里插入图片描述

推理过程分成四个步骤:

  1. 一个问题给出多个推理结果:给定一个带有医学问题的输入上下文提示,先让模型生成多个推理,模型可能每次推理的结果并不一致,但是这个不要紧。对于第一次推理结果,输入提示仅包含指令和问题。对于后续迭代,提示还包括来自下面第(4)步的搜索结果。
  2. 决定是否利用搜索:给定第(1)步的多个推理结果,会根据结果来计算一个值,这个值表示了模型推理结果多大的确定性。这里会设定一个阈值,如果模型的输出非常确定,那么就直接给出结果,如果不确定,那么就说明需要启动搜索。
  3. 不确定性指导的搜索查询生成:如果模型对推理结果不是很确定,那么就提示Med-Gemini-L 1.0生成三个搜索查询关键词,这些查询结果有助于解决不确定性。
  4. 搜索检索:生成的查询关键词提交给网络搜索引擎,检索到的结果被整合到Med-Gemini-L 1.0的输入提示中,用于下一次迭代,从第(1)步重新开始。通过用搜索结果增强提示,使模型能够通过考虑从网络搜索中获得的外部相关见解来完善其响应。

到这里可能你就明白为什么要生成两种推理数据里,第一次推理的时候是不用外部搜索引擎的数据的,只有生成的答案不确定性比较高的时候,才会补充进搜索引擎的额外信息,这时候就需要综合搜索引擎的信息进行推理了。

3.6 评估

这种方法是不是有效需要通过测试来决定,至少在论文里,去刷MedQA和其他题目还是挺有效的,达到了SoTA。

4. 有什么参考意义

其他多模态和长上下文的部分就不解释了。说一说对这篇论文的看法。

论文主要是Google为了展现Gemini模型的一些能力,从实际医学应用上面来看意义不是那么大,至少个人是这么感觉的。但是对于想要自己做垂直大模型的企业来说,还是可以有一些可以参考的地方。

  1. 首先需要定义好训练任务,需要增强模型的哪方面能力,至少论文里非常清晰的定义了他们认为医学领域需要的高级推理、多模态和长文本三个方面能力;
  2. 垂直行业系统,而不是垂直行业大模型。论文里并没有在一个模型上去实现所有的能力,而是分别选择了不同的模型进行微调,最后可以通过Agent整合的方式来实现一个系统,所以不要指望一个模型解决所有问题;
  3. 数据和评测标准很难得,很多论文做的其实是整理数据和评测标准,否则微调就没有方向,而这两个问题可能比想象中要困难很多;
  4. 成本,强如google这种公司,投入了几十号人,也就整出这么个玩意儿…

总体来看,这篇文章学术意义有限,绝对不是很多营销号上吹得什么了不得的突破,但是有一定的实际参考意义。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/626371.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大模型LLM 结合联网搜索增强isou

参考: https://github.com/yokingma/search_with_ai 在线使用网址: https://isou.chat/ 安装github下载,运行docker compose 如果一直报下面错误: 解决方法https://github.com/yokingma/search_with_ai/pull/7 默认打开&a…

nginx 发布静态资源

一. nginx 发布静态资源 在nginx中nginx.conf配置文件中添加内容如下: server {listen 90;server_name localhost;# 配置静态资源文件,就可以访问了location / {root /home/fooie-shop;index index.html;}# 配置音频和图片资源location /imoo…

NSSCTF | [SWPUCTF 2021 新生赛]babyrce

打开题目&#xff0c;显示了一个php脚本 我们来分析一下这个脚本是什么意思 <?php error_reporting(0); header("Content-Type:text/html;charsetutf-8"); highlight_file(__FILE__); if($_COOKIE[admin]1) {include "../next.php"; } elseecho &quo…

Java——多线程

一.多线程 1.什么是多线程 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中&#xff0c;是进程的实际运作单位 简单理解多线程就是应用软件中相互独立&#xff0c;可以同时运行的功能(也可以理解为人体内相互独立&#xff0c;但可以同时运行的器官⌓‿⌓) 我们…

排序-冒泡排序(bubble sort)

冒泡排序&#xff08;Bubble Sort&#xff09;是一种简单的排序算法&#xff0c;它重复地遍历待排序的数列&#xff0c;一次比较两个元素&#xff0c;如果它们的顺序错误就把它们交换过来。遍历数列的工作是重复地进行直到没有再需要交换&#xff0c;也就是说该数列已经排序完成…

[牛客网]——C语言刷题day2

答案&#xff1a;B 解析&#xff1a; char *p[10] 是指针数组,数组里存放了10个指针,在64位系统下指针占8个字节,所以sizeof(p) 10 * 8 80. char (*p1)[10]是数组指针,p1是一个指向存放10个char类型的数组的指针,所以sizeof(p1) 8. 答案&#xff1a;B 解析&#xff1a…

0513student的Maven项目

0513student的Maven项目包-CSDN博客 数据库字段 主页需求 点击休学按钮&#xff0c; 实现对 ‘’是否休学‘’ ‘’休学操作‘’ 的相应修改&#xff1b; 还有对数据库中相应学生休学状态修改。

11 | 如何实现高性能的异步网络传输?

理想的异步网络框架应该是什么样的? 这就是同步网络 IO 的模型。同步网络 IO 模型在处理少量连接的时候,是没有问题的。但是如果要同时处理非常多的连接,同步的网络 IO 模型就有点儿力不从心了。 因为,每个连接都需要阻塞一个线程来等待数据,大量的连接数就会需要相同数量…

vue3+TS或JS, 实现粒子特效 @tsparticles/vue3

在跟着B站视频BV11s4y1a71T学习时&#xff0c;使用到了粒子效果&#xff0c;但是以下这种情况只适用于项目是基于typescript的写法&#xff0c;否则无法实现。 粒子效果 VUE3TStsparticles/vue31、安装2、main.ts 引入3、App.vue4、效果 VUE3JS非最新版1、安装低版本的vue3-pa…

基于Java+SpringBoot+Vue前后端分离幼儿园管理系统设计与实现(有视频讲解)

博主介绍&#xff1a;✌全网粉丝5W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…

git-删除workspace.xml的跟踪

问题描述 .gitignore 文件内容如下&#xff1a; .pyc *.pyc user_files/ .vscode/ __pycache__//.idea/misc.xml /.idea/modules.xml /.idea/inspectionProfiles/profiles_settings.xml /.idea/inspectionProfiles/Project_Default.xml /.idea/batrp_webbackend-server-dev.i…

申请免费的必应搜索API

申请免费的必应搜索API 文章目录 申请免费的必应搜索API前言一、原理1.1 登录1.2 进入1.3 获取密钥1.4 申请VISA信用卡1.5 创建必应自定义搜索资源 二、创建成功 前言 准备条件&#xff1a; 1、outlook邮箱 2、招商银行全币种VISA信用卡【建议之前就有一张招商银行信用卡&…

棒材直线度测量仪 专为圆形产品研发设计 在线无损检测

棒材直线度测量仪采用了先进的技术&#xff0c;能够实现在线无损检测&#xff0c;为生产过程提供了极大的便利。专为圆形产品设计&#xff0c;它能够精确测量棒材的米直线度及外径、椭圆度尺寸&#xff0c;为质量控制提供可靠的数据支持。 在线直线度测量仪不仅具有出色的性能…

Spring整合其他技术

文章目录 Spring整合mybatis思路分析Mybatis程序核心对象分析整合Mybatis 代码实现 Spring整合Junit修改成警告 Spring整合mybatis 思路分析 Mybatis程序核心对象分析 上面图片是mybatis的代码&#xff0c;上述有三个对象&#xff0c;分别是sqlSessionFactory&#xff0c;sqlS…

UVa11419 SAM I AM

UVa11419 SAM I AM 题目链接题意分析AC 代码 题目链接 UVA - 11419 SAM I AM 题意 给出一个 RC 大小的网格&#xff0c;网格上面放了一些目标。可以在网格外发射子弹&#xff0c;子弹会沿着垂直或者水平方向飞行&#xff0c;并且打掉飞行路径上的所有目标&#xff0c;如下图所…

Prosys OPC UA Simulation Server工程文件备份方法

Prosys OPC UA Simulation Server是一款免费的OPC UA服务器仿真软件&#xff0c;具体的使用和下载参考官网&#xff1a; Prosys OPC - OPC UA Simulation Server Downloads 他的免费版本不提供工程文件的备份、导入导出功能&#xff0c;每次退出时保存。如果需要工程备份&a…

灵卡 LCC262 高性能多功能数字视频和音频一体式采集卡详尽解读

一、前言 作为计算机视觉技术解决方案提供商——灵卡&#xff08;LingCard&#xff09;公司推出的新一代超群性能采集卡—— LCC262&#xff0c;以其卓越的性能表现和丰富多样的功能特性&#xff0c;为广大用户带来了前所未有的视频和音频处理体验。本文旨在对该产品进行详细解…

Vue 封装axios

【一】准备工作 &#xff08;1&#xff09;安装必要插件 安装Axios&#xff0c;这是必要的。默认最新版 npm install axios -S 或 cnpm install axios -S安装elementui-plus&#xff0c;用于提示信息 npm install element-plus --save # 或 cnpm install element-plus --s…

LangChain 核心模块学习 模型输入 Prompts

模型输入 Prompts 一个语言模型的提示是用户提供的一组指令或输入&#xff0c;用于引导模型的响应&#xff0c;帮助它理解上下文并生成相关和连贯的基于语言的输出&#xff0c;例如回答问题、完成句子或进行对话。 提示模板&#xff08;Prompt Templates&#xff09;&#xf…

洁太司检测试剂盒:肝癌早诊新利器,共筑健康未来

随着科技进步及医疗技术的不断创新&#xff0c;人类对疾病的早期诊断和治疗提出了更高的要求。 先思达生物近期推出的“洁太司-寡糖链检测试剂盒”&#xff0c;在原发性肝细胞癌的诊断领域实现了重大突破&#xff0c;获得了国家药品监督管理局&#xff08;NMPA&#xff09;的三…