LLM应用:行业大模型

大语言模型正在朝着两个方向发展,一个是以ChatGPT为代表的通用大模型,另一个则是行业大模型(或称为“专业大模型”)。如果大模型的演化分为阴阳两面,通用大模型更像是阳面,受众更广、更to C端,以个人助手、AI搜索为代表;行业大模型像是是阴面,受众都是行业专业人士、也更to B端,其中以各种医疗专业助手、法律专业助手为典型。

本篇文章,将带大家一起来了解大模型的另外一面,包括医疗、教育、法律、金融和科研五大专业场景。这些行业大模型的构建思路基本都是在通用大模型的基础上增加预训练行业专业数据,并构建行业SFT数据,对模型进行指令微调,从而使行业大模型既具备通用大模型的基础理解和推理能力,又具备行业专业知识,从而让行业大模型达到行业专家的水平

 

一、医疗行业

医疗是与人类生活密切相关的重要领域之一。由于具有较强的通用任务解决能力,大语言模型被广泛用于辅助医生处理各种相关医疗任务,例如医疗诊断、临床报告生成、医学语言翻译、心理健康分析等。为了充分发挥大语言模型在医疗领域的作用,研发医疗相关的大语言模型非常重要。

1、医疗大模型构建

已有的医疗大语言模型主要以通用大语言模型为基础,通过继续预训练技术或者指令微调方法,让其充分适配医疗领域,从而更好地完成下游的医疗任务。在继续预训练阶段,医疗大语言模型可以利用医学领域丰富的数据资源(如医学教材、诊断报告等),学习医学领域的专业知识与相关技术,进而准确理解医学文本数据的语义信息。

为了解决复杂且多样的医疗任务,还需要进一步构建特定的指令集合对模型进行指令微调。在真实场景中,医疗相关指令数据相对较少,可以通过收集医患对话数据或医学问答数据集,在此基础上设计指令模板,来构造面向不同医疗任务的指令数据。为了增强模型回答的准确性和可信程度,还可以将医疗大语言模型和医学数据库进行结合,利用检索增强等方法来提升模型在处理复杂医疗任务时的能力。

此外,现有的医疗大语言模型通常基于英文语料进行训练,可能无法充分覆盖中医相关的知识体系。为了研发中医相关的医疗大语言模型,可以利用现有中医语料库构造预训练数据和微调指令,进而提升对于传统中医理论的理解与应用能力。进一步,在医疗领域中,影像信息具有重要的数据价值(X光片、MRI光片等),能够提供关于患者病情的直观信息。

因此,构建能够理解医疗文本和视觉信息的多模态大语言模型,有着较大的应用前景。为了实现这一目标,可能需要针对性地设计医疗图文指令。例如,可以对病灶区域进行专业标注,并设计对应的病情诊断指令。

2、医疗数据资源

领域

资源类型

细分类别

名称

医疗

模型

预训练大语言模型

指令微调大语言模型

多模态大语言模型

GatorTronGPT, MEDITRON

ChatDoctor, DoctorGLM, Med-PaLM

BenTsao, HuatuoGPT, DISC-MedLLM

VisualMed-Alpaca, LLaVA-Med

数据集

预训练数据集

中文医学知识图谱

Clinical Guidelines, PubMed, MIMIC-III CMeKG

评测基准

医学领域问答 医学多模态问答

MedMCQA, PubMedQA, MultiMedQA VQA-RAD

医疗领域有许多开源的数据资源可用于模型的训练与评估。其中,预训练医疗大模型的数据来源主要包括电子病历、科学文献医学问答等。

  • 电子病历数据通常由病人的健康诊断数据构成,该类数据能够帮助大语言模型理解医疗领域术语,并学习医疗诊断和分析方法。
  • MIMIC-III是目前被广泛使用的电子病历数据集,共包括40K余名病人的健康数据,覆盖医生诊断、生命体征测量、医学影像、生理数据、治疗方案、药物记录等信息。
  • 作为另一种重要预训练数据源,科学文献中包含了许多与医疗领域研究相关的学术研究文档,并且普遍具有较为规范的格式。此外,医疗领域还存在大量的医学问答与医患对话数据,这些数据常用来构建指令数据集,用于医疗大模型的指令微调。

为了对医学大语言模型进行评测,通常使用医学问答数据以自动化地评估医学文本理解以及医学知识利用的能力。其中,MultiMedQA是一个被广泛使用的医学问答评测基准,共由7个医学问答数据集组成,包含了来自多个医学领域的问答对,涵盖了临床医学、生物医学等健康相关的多种主题。此外,针对多模态医疗大模型,常使用包含医学影像和与之相关的问答对数据对其进行评测,其侧重于评测模型对医学图像的理解能力以及对图文模态信息的综合利用能力。

除了利用开源的数据资源进行自动评估,也可以通过邀请专业医生参与医疗大语言模型的评估,确保模型在实际临床应用中的安全性和有效性。该类方法通过让医学专家或临床医生审查模型生成的文本,从医学领域的准确性、临床适用性和专业性等角度,评估该模型生成内容的准确性和可靠性。

二、教育行业

教育是人类社会进步的基石,对个人和社会发展都至关重要。在教育系统中,大语言模型已经被用于多种教育相关任务,有助于增强教育场景的智能化、自动化和个性化

1、教育大模型构建

通常来说,教育应用系统面临着多样的用户需求(如作文批改、启发式教学、试题讲解等),而且要支持与用户进行便捷的交互。为此,教育大语言模型需要基于海量的教育相关文本和专业数据对大模型进行训练,并结合大规模的对话数据进行指令微调,从而适配教育应用场景下的多种需求。

考虑到教育领域不同学科往往具有显著的知识差异,还可以针对各学科设计专用的教育大模型。例如,可以构建专门面向数学学科的垂域大模型,强化数学学科特有的定理公式等专业知识,并能提供具有启发性的结题过程,以适应数学辅导的实际应用需求。

在此基础上,也可以将各学科的垂类模型集成为一个综合教育系统,从而为多学科提供全方位的教学支持和服务。此外,也可以通过集成网络检索增强和本地知识库等功能,在实际应用时提升在特定场景下教育大模型的效果。然而,由于教学数据可能包含用户隐私,使用其训练后的大语言模型可能存在隐私泄露的风险。因此,目前的开源教育大模型较少,已有的模型普遍通过向用户提供API的方式对外服务。

2、教育数据资源

领域

资源类型

细分类别

名称

教育

模型

指令微调大语言模型 下游应用工具

EduChat, 智海-三乐, 子曰大模型 Khanmigo,Duolingo Max, EmoGPT

数据集

教育对话数据集 问答数据集

TSCC, ESConv

TAL-SCQ5K

评测基准

教育领域问答

AI Teacher Test, CALM-EDU, E-EVAL

教育领域大模型相关的数据资源主要包括两类,即适配教育场景的训练数据衡量大模型教育能力的评测数据

其中,教育大模型所用的预训练数据通常来源于学科教材、领域论文与教学题库,这些数据能够在预训练阶段为大语言模型注入学科领域的专业知识。进一步,也可以邀请人类专家或使用大语言模型将其改写为指令数据,用于对大语言模型进行指令微调。例如,邀请专家标注题目解析指令数据,或使用ChatGPT仿真教学场景下的师生对话。

此外,也可以从真实教育场景或在线教学平台中,利用录音、录像等形式采集真实学生数据,用于构造指令数据,例如教师和学生之间的真实对话。师生聊天室语料库(Teacher-Student Chatroom Corpus,TSCC)收录了102个不同教室内匿名师生的真实对话,总计十万多个对话轮次。在每轮对话中,教师和学生进行语言练习并评估学生的英语能力,同时提供个性化的练习和纠正,故该数据集可以用于教育场景下的指令微调。

对教育领域大模型的评估主要关注于以下两个方面:在辅助学习过程中的教学能力对教育领域知识的理解能力。对前者的评测需要收集现实世界中教师与学生的对话,然后利用大语言模型模拟人类教师对学生进行教学指导,从表达方式、理解能力、辅助教学等方面分别进行评估。进一步,对后者的评测可以直接针对知识层次和学科特点,选择合适的已有教学题库进行测评。

三、法律行业

在法律领域,相关从业人员需要参与合同咨询、审查、案件判决等日常重复性任务。这些任务需要耗费大量的人力成本,亟需面向法律领域的人工智能技术辅助完成这些工作,从而减轻从业人员的工作负担。大语言模型具有优秀的模型能力,经过领域适配以后,能够助力完成多种法律任务,如合同信息抽取、法律文书撰写和案件判决生成,具有较好的应用场景。

1、法律大模型构建

为了构建法律大语言模型,可以采集大量的法律相关的文本数据,进而针对通用大语言模型进行继续预训练或指令微调,使其掌握法律领域的专业知识。Chat-Law是一个面向中文的法律大语言模型,其训练数据主要来源于法条、司法解释、法考题、判决文书、法律相关论坛和新闻等。ChatLaw目前主要有两个版本,即ChatLaw(13B)和ChatLaw(33B),分别基于Ziya-LLaMA(13B)和Anima(33B)基座模型训练获得,具有较好的法律文本理解与任务处理能力。

由于法律领域具有高度的专业性、且不同国家法律存在差异,在训练法律大模型时需要考虑其适用范围。例如,在中文法律场景下,需要在构造训练数据时去除不符合中国法律的相关训练数据,并且针对常见的法律案例、咨询需求等构造指令数据集,从而更准确地理解中国用户的法律需求。

2、法律数据资源

领域

资源类型

细分类别

名称

法律

模型

指令微调大语言模型 下游应用工具

ChatLaw, PowerLawGLM, LaWGPT, LexiLaw 通义法睿

数据集

论文数据集

问答数据集

CUAD, LeCaRD

中国司法考试题, 百度知道法律问答

评测基准

法律领域问答

LexGLUE, LegalBench

法律领域有许多可用于模型训练与评估的数据资源。其中,可用于训练法律大模型的数据资源主要包括法律法规、裁判文书等法律数据。这些数据通常可以从相关官方网站下载获得,且数据规模较大,能够为大模型提供大量的法律专业知识。

进一步,还可以收集司法考试题目、法律咨询、法律问答等相关数据,此类数据涉及了真实用户的法律需求与基于法律专业知识的解答,通常可以用于指令数据的构造,进而对于模型微调。Cuad是一个包含510个商业法律合同、超过13K个标注的合同审查数据集,由数十名法律专业人士和机器学习研究人员共同创建。通过法律专业人士对这些合同数据进行扩充和详细标注,可以得到高质量的法律相关指令数据,从而提升法律专用垂直大模型的微调效果。

此外,上述数据也可以用来构建法律领域的评测基准,用于全面评估法律专用的大语言模型的性能。其中,司法考试题目常用于对模型进行评测,相较于传统问答数据集,司法考试题目的问答依赖于对大量专业知识的理解,以及对大量相关资料的参考结合,因此具有较高的难度与专业度,可用于法律大模型的综合能力评估。

四、金融行业

随着金融科技的快速发展,金融领域对于自动化的数据处理和分析技术日益增长。在这一背景下,大语言模型技术开始逐步应用于金融领域的多种相关任务(如投资倾向预测、投资组合设计、欺诈行为识别等),展现出了较大的应用潜力。

1、金融大模型构建

与前述垂域模型的研发方法相似,可以将通用大语言模型在金融领域数据上进行继续预训练或指令微调,进而构建金融大语言模型,提高其在金融相关任务上的表现。

为了训练金融大语言模型,需要收集大量的金融领域文本数据,通常还可以再添加通用文本数据以补充广泛的语义信息。其中,可供使用的金融领域数据主要包括公开的公司文件、金融新闻、财务分析报告等,可以为大语言模型补充金融领域的专业知识。

其中,一个具有代表性的金融大语言模型是BloombergGPT,该模型采用自回归Transformer模型的架构,包含50B参数,使用了363B token的金融领域语料和345B token的通用训练语料从头开始预训练。其中,金融领域数据主要来自于彭博社在过去二十年业务中所涉及到的英文金融文档,包括从互联网中抓取的金融文档、金融出版物、彭博社编写的金融新闻以及社交媒体等。BloombergGPT在金融评测基准上的表现优于OPT、BLOOM等通用开源大语言模型,并且在通用自然语言评测基准上能达到这些通用大语言模型相近的性能。

2、金融数据资源

领域

资源类型

细分类别

名称

金融

模型

预训练大语言模型 指令微调大语言模型

BloommbergGPT, XuanYuan 2.0 FinMA, FinGPT, InvestLM

数据集

预训练数据集 指令微调数据集

BBT-FinCorpus

FIT

评测基准

金融领域问答

FLUE, BBT-CFLEB, FinBen

金融领域的预训练数据通常包含公司与个人的专有信息,可能会涉及到隐私问题,因此开源数据相对较少。目前研究社区公开的金融领域数据资源主要为指令和评测数据集

已有的指令数据集通过整合金融领域的各类任务数据(例如新闻标题分类、命名实体识别、股票趋势预测)和现实应用场景中的问答或对话数据(例如注册金融分析师考试、在线平台上金融讨论帖等),并将其整理为统一形式的指令数据,用于提升模型对金融领域文本的理解能力和在现实金融场景中的实用性。

FIT是一个较具代表性的金融指令数据集,共包含136K条指令。其原始数据来源于9个金融领域自然语言数据集,涵盖了5类金融自然语言任务。

为了对金融大语言模型进行评测,已有的金融领域评测基准涵盖了多种金融领域的任务。其中,FinBen收集了35个金融相关数据集,共涉及23类不同任务。这些任务根据难度被分为3个级别:

五、科研

科学研究是研究人员探索科学问题的学术活动,对于人类社会的发展与进步有重要意义。在科研过程中,研究人员往往需要面对复杂的科学问题,处理与分析大量的实验数据,并需要及时学习最新的科学进展。在这一过程中,可以使用大模型技术来辅助人类的科研探索工作,进而推动科学研究的快速进展。

1、科研大模型构建

通过使用科学领域相关的数据对大语言模型进行预训练或微调,可以使其适配于科学研究场景下的各类任务。

Galactica是MetaAI公司于2022年11月推出的科学大模型,该模型通过在48M篇论文、教科书和讲义、数百万个化合物和蛋白质、科学网站、百科全书等大量科学相关数据上预训练得到的。

实验结果表明,Galactica可以解决许多很多复杂科研任务,包括辅助论文撰写、物理问题求解、化学反应预测任务等。此外,对于特定的科学领域(如数学、化学、生物等),也可以通过收集领域特定的数据集合,针对性训练特定的大语言模型。

在研发科学领域的大语言模型时,需要选择合适的基座模型和高质量的训练数据。例如,对于数学等理工学科,可以采用基于代码的大语言模型作为基座模型,并需要收集大量包含形式化的文本(如包含有公式、定理证明等)作为预训练数据。

此外,在设计面向科学研究场景的指令数据时,需要尽量覆盖相关任务场景下的基础任务(如科学概念理解和问答)与特殊的应用需求(如数值计算和定理证明),还可以针对性地适配特殊的数据形式(如化学表达式),从而更为精准地解决领域内的应用需求。

2、科研数据资源

领域

资源类型

细分类别

名称

科学

模型

预训练大语言模型

指令微调大语言模型

Galactica, AcademicGPT, LLEMMA

DeepSeekerMath, ChemDFM, GeoGalactica

LLaMA-SciTune, SciGLM, DARWIN

数据集

学术论文

指令微调数据集

Arxiv, OpenReview, Unpaywall SciInstruct, Mol-Instructions

评测基准

科学领域问答

SciEval, Sci-Bench, PubMedQA

CEval/MMLU-Sci, ChemLLMBench

目前有很多开放的数据资源可用于研发科研大语言模型。其中,公开的学术论文被广泛用作预训练数据。

arXiv作为全世界最大的论文预印本收集平台,其收录了近2.4M篇学术文章,涵盖物理学、数学、计算机科学、定量生物学等领域,提供了非常高质量的科研文本数据。除此之外,研究人员还可以通过其他科研论文平台进行数据的收集,如PubMed和Semantic Scholar,进一步扩充学术论文的范围与规模。

由于科学领域数据可能包含特殊格式的数据(如蛋白质序列等),通常需要对其进行专门的处理,使其转换为统一的文本表示形式(如转成Markdown格式)。此外,科学领域还存在大量的开源问答数据集,如专业考试习题、社区问答数据等,这些数据经常用于构造指令数据集,以帮助大模型进行指令微调。

为了评测大语言模型对于科学知识的掌握程度,科学领域的问答数据也被广泛用于大模型的能力评测。这些任务不仅需要模型理解基本的科学概念与理论知识,还需要具有多步推理与复杂计算的能力。其中,Sci-Bench是一个代表性的科学知识评测基准,该评测基准构造了一个大学程度的科学问题数据集,涵盖了从化学、物理和数学教科书中收集的789个开放性的问题。进一步,该评测基准还包括了一个多模态子集,可以用于评估多模态大语言模型解决科学问题的能力。

【推广时间】

给大家推荐一个性价比超高的GPU算力平台:UCloud云计算旗下的Compshare算力共享平台,目前注册送20元测试金,可以畅享7小时4090算力,预装了主流的大模型和环境的镜像,开箱即用,非常方便。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789918.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++11 shared_ptr手写---面试常考

shared_ptr简介 共享对其所指堆内存空间的所有权,当最后⼀个指涉到该对象的shared_ptr不再指向他时,shared_ptr会⾃动析构所指对象如何判断⾃⼰是否指涉到该资源的最后⼀个?《引⽤计数》 shared_ptr构造函数,使引⽤计数析构函数&…

Linux常用选项和指令

目录 Linux指令使用注意 用户创建与删除 ls指令 ls指令介绍 ls常见选项 ls选项组合使用 pwd指令 Linux文件系统结构 多叉树结构文件系统介绍 多叉树结构文件系统的特点 cd指令 绝对路径 相对路径 cd指令介绍 家户目录 最近访问的目录 touch指令 ​编辑mkdir指…

借助钡铼经济型网关实现台达PLC设备与OPC UA的连接

随着工业自动化的发展,将传统的PLC设备接入现代化的网络通信系统变得越来越重要。OPC UA(Open Platform Communications Unified Architecture)作为工业领域通信的开放标准,提供了安全、可靠且跨平台的数据传输能力,因…

Spring中的工厂模式详解及应用示例

1. Spring中的BeanFactory BeanFactory是一个接口,表示它是一个工厂,负责生产和管理bean。在Spring中,BeanFactory是IOC容器的核心接口,定义了管理Bean的通用方法,如 getBean 和 containsBean。 BeanFactory与IOC容器…

Docker 使用基础(2)—镜像

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:秒針を噛む—ずっと真夜中でいいのに。 0:34━━━━━━️💟──────── 4:20 🔄 ◀️ ⏸ …

zabbix 学习笔记

文章目录 Zabbix 安装Ubuntu 18.04.1 server 安装Zabbix 4.0Centos7 安装Zabbix3.4Centos7 安装zabbix4.2Centos7.1908安装zabbix 基于ngixDebian11安装zabbix6.0LTS 基于PostgreSQL和NGINXAlmaLinux9.2使用国内清华源在线安装zabbix6.0.18LTS 基于MySQL和NGINXUbunut22.04使用…

HTTP协议分析/burp/goby/xray

一、HTTP简介 HTTP(超文本传输协议)是今天所有web应用程序使用的通信协议。最初,HTTP只是一个为获取基于文本的静态资源而开发的简单协议,后来人们以名种形式扩展和利用它.使其能够支持如今常见的复杂分布式应用程序。HTTP使用一种用于消息的模型:客户端…

使用Vue3、Pinia和Vite5打造高度还原的抖音仿制项目

douyin-vue 是一个模仿 抖音|TikTok 的移动端短视频项目。Vue 在移动端的"最佳实践",媲美原生 App 丝滑流畅的使用体验。使用了最新的 Vue 技术栈,基于 Vue3、Vite5 、Pinia实现。数据保存在项目本地,通过 axios-mock-adapter 库拦…

如何将heic格式转换jpg?四种将heic转换成jpg的方法!

如何将heic格式转换jpg?在现今的数字图像处理领域,Heic格式作为一种被吹捧的创新型图像格式,以其先进的压缩技术,迅速减小了图片文件的大小,然而,尽管其有许多优点,实际使用中Heic格式却带来了一…

视频解码故障案例两则

案例1 绿边 故障分析: 这个能明显看到视频上方出现绿色半透明边带。这说明Y数据正常。UV数据不正常。 它显然与视频帧的垂直分辨率设置有关。 UV数据和Y数据是连续放置的,如果上方出现彩色数据失调,说明这部分数据实际仍然是Y数据。也就是…

ROM修改进阶教程------深度解析小米设备锁机型不解锁bl 刷写特殊类固件的步骤

在玩机过程中会遇到很多自己机型忘记密码或者手机号不用导致机型出现账号锁。无法正常使用。那么此类机型如果无法正常售后解锁。只能通过第三方渠道。例如在早期小米机型有强解bl锁资源。然后刷入完美解锁包。这种可以登陆新账号。但后期新机型只能通过修改分区来屏蔽原设备锁…

STM32智能机器人手臂控制系统教程

目录 引言环境准备智能机器人手臂控制系统基础代码实现:实现智能机器人手臂控制系统 4.1 数据采集模块 4.2 数据处理与控制算法 4.3 通信与网络系统实现 4.4 用户界面与数据可视化应用场景:机器人手臂管理与优化问题解决方案与优化收尾与总结 1. 引言 …

绝区零启动遇到的问题

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 ​ 绝区零》作为米哈游的一款全新都…

4-1 文本预处理:分词、停用词、特殊字符消失术

4-1 文本预处理:分词、停用词、特殊字符消失术 在自然语言处理(NLP)领域,文本预处理是不可或缺的一步。有效的文本预处理能够显著提高模型的性能和准确性。本文将详细介绍文本预处理中的三个重要步骤:分词、停用词处理…

NPDP含金量高吗?什么人适合学习NPDP?

PMP考完了,最近在考NPDP,这也是一个有意思的证书,含金量还不错,非常适合想转型和升级的人来考。 一、NPDP是什么 NPDP其实就是产品经理国际资格认证(New Product Development Professional),是…

怎么提高音频声音大小?提高音频声音大小的四种方法

怎么提高音频声音大小?在音频处理和编辑中,增加声音的音量是一个常见的需求,尤其是在确保音频清晰度和听觉效果的同时。调整音频的音量不仅仅是简单地提高音频的响度,它也涉及到如何保持音质的高标准,确保没有失真或削…

视频调色的技巧和方法 视频调色的操作步骤 视频调色用什么软件好免费 会声会影下载免费中文版

学会视频调色,就等于掌握了剪辑艺术的密码。视频调色不是为了画面好看,而是通过精心构思的色彩参数,向观众传达作品的情绪和内涵。普通剪辑师与剪辑高手之间的差距,就在于能否领悟视频调色的真谛。 一、视频调色有什么用 掌握混…

Pandas基础03:数据排序与增删

上一节我们介绍了通过按行索引和按列索引找出相关数据的方法。本章节将进一步介绍如何筛选数据,并对数据进行排序、增删的方法。 示例表格和上一节相同。 1.数据筛选 Python中可以通过区域筛选,即获取某几行某几列的方法得到数据。例如,我要…

伙伴活动|AI硬件大潮来袭,深圳的创客们在哪里?

「每一种硬件产品,都会被 GenAI 重新做一遍。」 分享一个社区伙伴「未来光锥」参与主办的活动。如果你同时对 AI 和硬件感兴趣,提到 maker 一词仍然会激动。推荐你参与这次活动。 AI 玩具Folotoy 的创始人、RTE 开发者社区成员王乐也将参与本次活动并分…

python怎么判断字符串以什么结尾

在python编辑器中新建一个data.py。 写上自己的注释。 然后新建一个变量testname。 利用endswith来判断字符串是不是以“ar”结尾。 将结果打印出来。 选择“run”->“run”。 运行该程序,如果是,就会返回true。