大模型应用-多模态和大模型是如何相互成就的

前言

如果单纯的将大模型用来聊天,那就是low了。

而多模态赋予了大模型更多的现实价值,大模型则助力多模态变得更强大。

多模态

我们所处的是一个物理世界,不同事物之间模态多种多样,即便是简单的文本,按照语言,格式都可以分很多个模态。

在实际使用中,多模态的场景往往需要模型微调,才可能满足需求。

我们这里还是主要看一下当前比较常用的基础多模态和支持的模型。

模态场景模型备注
文本nlp:自然语言处理
nlu:自然语言理解
nlg:自然语言生成gpt-3.5-turbo
gpt-4
语音asr:语音转文本
tts:文本转语音国外:微软,google平台都很好用
国内:讯飞,Paddle等也很好语音一般都是转成文本然后给到大模型
图片文生图
图生文
图编辑
图检索midjourney:最好的图片生成工具,没有之一
DALL·E:openai的模型,2和3都很好,功能强大
gpt-4-vision-preview:图片理解的模型
VisualBERTImageBERT:图片向量化图片和大模型可以玩的很花,下面详说
视频文生视频,视频理解待sora问世视频相关的结合较少,基建缺缺
代码代码生成和纠错`Codex` 已集成到gpt的模型中现在的基础大模型几乎都具备编程能力,并且被广泛集成到github copilotVS Code这类工具中
embeddingRAG:检索增强开源的bert
openai的text-embedding-xxx系列
中文的m3e严格讲这不算一个模态,但RAG往往被单拎出来用
审计内容审计相关的场景,用于检测不安全内容openai的text-moderation-xx系列还记得我之前说的大模型安全问题吗,使用审计模型也是一种方向

典型场景

1. 漫画

我们可以利用大模型自动根据我们的剧情画漫画,它的实现流程大致如下:

  • 单智能体版本
  1. 创建一个漫画家agent
  2. 给这个漫画家添加一个文生图的tool
  3. 给它一段段剧情,自动生成漫画
  • 多智能体版本
  1. 创建一个漫画家agent,创建一个作家agent
  2. 给这个漫画家添加一个文生图的tool,给作家一个ttstool。
  3. 给作家一段概要,作家自动生成一段段剧情,并生成对应的语音
  4. 漫画家根据剧情画出漫画

2. 健身|减肥

在减肥的时候,是不是有这样的烦恼,不知道自己吃的这顿饭有多少卡路里?

我们可以在吃饭前,把食物拍下来,然后用图生文的能力解读出,当前食物所含有的卡路里。

3. 医疗

我生病时,最头疼的事情就是描述不出自己是什么病,也不知道用什么药。

亲身经历:有次早晨醒来,发现后槽牙龈肿了,吃不了饭,当时不知道是智齿冠周炎,去医院挂号排队,搞了一下午,开了一堆药。后来再出现这样的情况,我就直接网购阿莫西林胶囊和甲硝唑口含片,基本一两天就能好。省略一大笔冤枉钱和大把的时间。

现在想想,如果有大模型支持的医疗agent,借助图搜图的能力,我只需要对着口腔拍个照片,就能直接看病,抓药。

4. 法律助手

这是一个典型的embedding功能,在langchain框架上有现成的功能。实际应用中是非常普遍和广泛的。

比如当你在做某个事情,而不知道法律是如何规定的时候,用embedding功能对所有的法律条目进行召回,并用大模型进行总结和回复。

5. siri

这是一个较为复杂的场景,它集成苹果手机的基础功能,此时他的模态更加宽泛,是一个典型的大模型和多模态的应用场景。

尾语

多模态是大模型应用中不可缺少的部分。是更贴近应用的部分。

不同的应用场景需要不同的策略,可能是新旧技术的结合,也可能是完全新的领域,比如sora。多模态正在发力的路上,还需要我们更多的探索。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/756356.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FreeRTOS的裁剪与移植

文章目录 1 FreeRTOS裁剪与移植1.1 FreeRTOS基础1.1.1 RTOS与GPOS1.1.2 堆与栈1.1.3 FreeRTOS核心文件1.1.4 FreeRTOS语法 1.2 FreeRTOS移植和裁剪 1 FreeRTOS裁剪与移植 1.1 FreeRTOS基础 1.1.1 RTOS与GPOS ​ 实时操作系统(RTOS):是指当…

java基于ssm+jsp 二手车交易网站

1用户功能模块 定金支付管理,在定金支付管理页面可以填写订单编号、车型、品牌、分类、车身颜色、售价、订金金额、付款日期、备注、用户名、姓名、联系方式、是否支付等信息,进行详情、修改,如图1所示。 图1定金支付管理界面图 预约到店管…

计算Dice损失的函数

计算Dice损失的函数 def Dice_loss(inputs, target, beta1, smooth 1e-5):n,c, h, w inputs.size() #nt,ht, wt, ct target.size() #nt,if h ! ht and w ! wt:inputs F.interpolate(inputs, size(ht, wt), mode"bilinear", align_cornersTrue)temp_inputs t…

wsl2收缩虚拟磁盘,减少空间占用

一、说明 由于WSL2使用的是虚拟磁盘,当虚拟磁盘的空间变大时,仅仅删除WSL2文件系统中没有用到的大文件,磁盘空间是无法自动收缩回收的。本文介绍了一种回收WSL2虚拟磁盘空间的方法。 二、停止WSL2 在收缩 WSL2 虚拟磁盘之前,需…

《概率论与数理统计》期末复习笔记_上

目录 第1章 随机事件与概率 1.1 随机事件 1.2 事件的关系与运算 1.3 概率的定义与性质 1.4 古典概型_重点 1.5 几何概型 1.6 条件概率与乘法公式 1.7 全概率公式与贝叶斯公式_重点 1.8 事件的独立性_重点 1.9 伯努利概型_重难点 第2章 随机变量及其分布 2.1 随机变…

​​Linux(CentOS)​​同步服务器时间之~​​chrony​​

Chrony 是一款开源的网络时间协议(NTP)客户端和服务端软件,旨在提供高精度的时间同步功能。相较于传统的 NTP 实现如 ntpd,Chrony 提供了一些改进和优势,包括更快的同步速度、低延迟、低CPU占用和低内存消耗。以下是 Chrony 的几个关键特性和…

华润万家超市卡怎么用?

华润的礼品卡不仅能线下门店使用,还能直接叫送货上门 我最近用积分兑了几张华润卡,但是又没有购物需求,送朋友吧面值又不大,朋友也说用不上 最后朋友建议我在收卡云上把卡出掉,我试了下92折出掉了,价格还…

面对全球新能源汽车合作发展创维汽车如何实现共赢

由全球新能源汽车合作组织(筹)主办、中国电动汽车百人会承办的首届全球新能源汽车合作发展论坛(GNEV2024)于6月27日,6月28日在新加坡金沙会议展览中心召开。创维汽车国际营销公司总经理齐奎源受邀参会并作出分享。 本届大会以推动全球新能源汽车产业协同发展与合作…

GenAI 用于客户支持 — 第 1 部分:构建我们的概念验证

作者:来自 Elastic Chris Blaisure 欢迎来到 Inside Elastic 博客系列,我们将展示 Elastic 的内部运营如何解决实际业务挑战。本系列将揭示我们将生成式 AI(gererative AI - GenAI)集成到客户成功和支持运营中的历程,让…

【Mac】Listen 1 for Mac(最强的音乐搜索工具)软件介绍

软件介绍 Listen 1 for Mac 是一款非常方便的音乐播放软件,主要功能是集成多个音乐平台,让用户可以方便地搜索、播放和管理音乐。它是一个用 Python 语言开发的免费开源综合音乐搜索工具项目,最大的亮点在于可以搜索和播放来自网易云音乐&am…

JAVA医院绩效考核系统源码:三级公立医院绩效考核系统源码 可源码交付,支持二开

JAVA医院绩效考核系统源码:三级公立医院绩效考核系统源码 可源码交付,支持二开 医院绩效考核系统是一个集数据采集、分析、评估、反馈于一体的信息化工具,旨在提高医疗服务质量、优化资源配置、促进医院可持续发展。以下是对医院绩效考核系统…

【React】第二个组件的一点小问题(JSX元素需要被包裹)

能看出为什么报错吗? 它告诉我们JSX元素需要被包裹,此时只需在所有元素外套一层标签(空标签也可以哦) 专业点就是要有一个根元素 注释: ctrl / 效果是 {/* */}这样 三元运算符:同CPP 循环输出数组&#x…

Firefox 编译指南2024 Windows10篇- 源码获取(二)

1. 引言 在成功准备了编译环境之后,下一步就是获取Firefox的源码。源码是编译任何软件的基础,对于开源项目如Firefox尤其重要。通过获取并理解源码,开发者不仅能够编译出自定义版本的Firefox,还能对其进行修改和优化,…

html纯原生网页引入vue3版本的quill editor

效果图 版本 vueup/vue-quill v1.2.0vue3.3.8Element Plus v2.4.2 引入流程 找一个vue3的项目, 然后安装插件vue版本的quill: vue-quill npm install vueup/vue-quill --save官方地址:https://vueup.github.io/vue-quill/ 安装完成之后,把vue-quil插件下…

C++中的数据结构

一.STL标准库 结构:STL中有六大组件,分别是:容器,算法,迭代器,仿函数,配接器,配置器;以下分别介绍这六大组件中的最主要的三个。 1.容器 容器来配置存储空间,算法通过…

CSS的 text-decoration

text-decoration text-decoration CSS 简写属性设置文本上的装饰性线条的外观。它是 text-decoration-line、text-decoration-color、text-decoration-style 和较新的 text-decoration-thickness 属性的缩写。 MDN text-decoration text-decoration 可以设置1到4个参数, 允许…

海康车牌识别 报警回调后程序崩溃

我用的32位 6.1.9版本SDK 回调会导致程序崩溃 咨询了下海康官方技术 答复如下:(此答复我没尝试 自行尝试 我的解决方法是更换了老版本 5.3版本 没什么问题 个人资源中有 自行下载

计算机毕业设计hadoop+spark+hive知识图谱酒店推荐系统 酒店数据分析可视化大屏 酒店爬虫 高德地图API 酒店预测系统 大数据毕业设计

酒店推荐系统开题报告 一、研究背景与意义 随着旅游业的蓬勃发展和人们生活水平的提高,酒店行业迎来了前所未有的发展机遇。然而,面对众多的酒店选择,消费者往往难以在短时间内找到最适合自己需求和预算的酒店。因此,开发一款高…

ChatGPT之母:AI自动化将取代人类,创意性工作或将消失

目录 01 AI取代创意性工作的担忧 1.1 CTO说了啥 02 AI已开始大范围取代人类 01 AI取代创意性工作的担忧 几天前的采访中,OpenAI的CTO直言,AI可能会扼杀一些本来不应该存在的创意性工作。 近来一篇报道更是印证了这一观点。国外科技媒体的老板Miller用…