AI 大模型应用开发实战(04)-AI生态产业拆解

1 行业全景图

2 结构拆解AI GC

生成式AI这个产业。分成上中下游三大块。

2.1 上游基础层

主要包括:

  • 算力:包括AI芯片和云服务等,例如像英伟达、AMD以及华为等厂商提供的算力基础设施。大型模型基于Transformer架构,对算力的需求很大。
  • 数据:新时代的石油,分为基础数据服务、数据集和向量数据库。
  • 算法:算法基础包括TensorFlow、PyTorch等著名算法框架,以及百度、阿里、腾讯等公司提供的AI开发平台。

这是AI的基础,也是过去AI研究的重点。

2.2 中游-AIGC大模型层和工具层

大模型层分为:

  • 通用模型:如OpenAI、腾讯的宏源、百度的1000万等,
  • 行业模型,根据具体行业或业务进行微调或二次训练。工具层包括AI Agent,其中包括像OutGPT这样的工具,以及模型平台和模型服务等

2.3 下游应用层

包括:

  • 内容消费:在各种平台上生成内容,如抖音、快手等
  • 创作工具:提供基于AI的工具,如MID Generate
  • 企业服务:根据行业提供各种应用,如微软、亚马逊等

产业中,我们的位置是在AI GC工具层,即AI Agent层,作为中间件,承上启下。应用开发者的位置可能更多在中游和下游,发挥着重要作用。

3 名词解释

当然,可以按以下类别对这些概念进行细分解释:

3.1 模型与架构

  1. LLM (大型语言模型):具有大量参数,能处理复杂语言任务的模型。
  2. chatGPT:一种用于生成对话的自然语言处理模型。
  3. RWKV:结合RNN和Transformer优点的神经网络架构。
  4. CNN (卷积神经网络):一种擅长处理图像数据的神经网络。
  5. RNN (循环神经网络):处理序列数据的神经网络。
  6. stable diffusion:一种用于生成图像的扩散模型。
  7. DALL·E:OpenAI开发的生成图像的模型。
  8. RAG (检索增强生成):结合检索和生成的模型。
  9. AIGC (人工智能生成内容):指利用AI生成文本、图像等内容的技术。

3.2 技术与方法

  1. 多模态:处理多种不同类型数据的模型。支持多种形态的模型,如文字、图像、音频等

  2. 自监督学习:利用数据本身结构进行训练的方法。

  3. 预训练:在大规模数据上训练模型,以获得初始参数。

  4. Few-shot:使用少量样本进行训练和推理的能力。

  5. One-shot:使用单个样本进行训练和推理的能力。

  6. Zero-shot:无需样本也能进行推理的能力。

  7. Temperature:控制生成模型输出多样性的参数。

  8. RLHF (基于人类反馈的强化学习):通过人类反馈优化AI行为的方法。

  9. Fine-tunes:在预训练模型基础上,进行特定任务的微调。

  10. 向量搜索:通过向量化表示进行高效搜索的方法。

  11. 向量数据库:存储和检索向量化数据的数据库。

  12. NLP (自然语言处理):处理和生成自然语言的技术。

  13. CV (计算机视觉):理解和生成图像和视频的技术。

  14. 分析式AI:侧重于分析和理解数据的AI。

  15. 知识图谱:以图结构表示知识及其关系的数据结构。

  16. 过拟合:模型过度拟合训练数据而无法泛化到新数据的现象。

  17. AI推理:AI对数据进行推断和决策的过程。

  18. 生成对抗网络:通过两个网络的对抗来提高生成结果质量的方法。一种神经网络类型,用于生成真实的图像。(Generative Adversarial Networks, GANs)是一种由 Ian Goodfellow 等人在 2014 年提出的深度学习模型。GANs 通过两个网络(生成器和判别器)相互对抗的方式来提高生成结果的质量。这两个网络的具体角色和对抗机制如下:

    1. 生成器(Generator):生成器接受一个随机噪声向量作为输入,并生成伪造的数据(例如图像)。它的目标是生成尽可能真实的数据,以便欺骗判别器。

    2. 判别器(Discriminator):判别器接受真实数据和生成器生成的伪造数据,并试图区分两者。判别器的目标是尽可能准确地识别出哪些数据是真实的,哪些是伪造的。

    在训练过程中,生成器和判别器会交替优化自己的参数:

    • 生成器的目标是生成越来越真实的伪造数据,以使判别器难以区分真假数据。
    • 判别器的目标是提高其区分能力,准确判断数据的真假。

    这种对抗机制形成了一个零和游戏,最终生成器会生成出非常逼真的数据,使得判别器难以辨别其真假。

    综上,生成对抗网络是一种通过两个网络的对抗来提高生成结果质量的方法,也是一种用于生成真实图像的神经网络类型。

  19. 元学习:学习如何学习的方法,提高模型在新任务上的适应能力。

  20. 并行训练:同时训练多个模型或在多台设备上训练单个模型的方法。

3.3 平台与工具

  1. HuggingFace:提供自然语言处理模型和工具的公司。
  2. openAI:开发和研究人工智能的机构。
  3. Azure:微软的云计算服务平台。
  4. Heygan:一种AI生成模型(可能是特定应用的名称)。
  5. Copilot:编程助手工具,帮助开发者编写代码。
  6. midjourney:AI驱动的艺术创作平台。
  7. D-ID:用于生成和处理数字身份的技术。

3.4 概念与其他

  1. 具身智能:具有物理存在并能与环境互动的人工智能。
  2. AGI (人工通用智能):具有通用认知能力的AI。
  3. AI-Agents:自主行动并完成任务的人工智能代理。使用AI代替人类执行任务的智能体
  4. RPM:每分钟旋转数(Rotations Per Minute),这里可能表示模型的训练速度。
  5. 知知识幻觉:模型生成的看似合理但错误的知识。
  6. 咒语:特定输入词汇或短语,用来触发模型生成特定输出。
  7. 哼唱:AI生成的音乐或音频。
  8. CDN (内容分发网络):用于加速网络内容传输。
  9. 上下文:模型生成内容时参考的前后文信息。
  10. 炼丹:指模型训练和调优过程的比喻。
  11. 炼炉:可能是某种训练或计算环境的比喻。

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都技术专家,多家大厂后端一线研发经验,在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化

  • 活动&优惠券等营销中台建设

  • 交易平台及数据中台等架构和开发设计

  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化

  • LLM应用开发

    目前主攻降低软件复杂性设计、构建高可用系统方向。

参考:

  • 编程严选网

    本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/735820.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Sklearn驯化-环境配置】一文搞懂sklearn建模的最优环境搭建用法

【Sklearn驯化-环境配置】一文搞懂sklearn建模的最优环境搭建用法 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 相关内容文档获取 微信…

CARLA自动驾驶模拟器基础

CARLA 使用服务器-客户端架构运行,其中 CARLA 服务器运行模拟并由客户端向其发送指令。客户端代码使用 API 与服务器进行通信。要使用 Python API,您必须通过 PIP 安装该模块: pip3 install carla-simulator # Python 3World and client 客…

【职场人】如何与同事有效沟通

在职场中,沟通如同桥梁,连接着每一位职场人士的心灵与智慧。有效的沟通不仅能让工作更加顺畅,还能让团队关系更加和谐。那么,如何与同事进行有效沟通呢?下面,我将结合个人经验和一些幽默的比喻,…

Python的pip切换国内源

📚目录 起因:pip切换国内源:操作永久修改pip配置文件测试永久源配置是否成功 pip其他环境的配置永久源配置 起因: pyCharm安装模块的手出现ModuleNotFoundError: No module named distutils 由于使用pip install distutils下载不了…

绘制口罩maskTheFace数据源是300w_lp

官网下载mask the face 代码,增加代码draw_face.py import argparse import cv2 import scipy.io from tqdm import tqdm from utils.aux_functions_2 import *# 设置命令行输入参数 parser argparse.ArgumentParser(description"MaskTheFace - Python code…

用腾讯云语音合成(TTS)批量生成英语绘本的朗读音频

孩子进行英语启蒙,需要看很多英语绘本,而且要听配套的音频来练听力。但有些英语绘本是没有对应音频的,下面简单几步,就可以将任意英语绘本制作出对应的英语朗读音频。 先到电子书资源网站搜索这个绘本名称,如果有电子…

C++学习合集

#整理到一块,方便查东西,顺便补充一些之前没有学习到的东西# 变量 char--1字节 short--2字节 int-4字节 long--4字节 long long(int)--8字节;准确来说变量的大小取决于编译器,1字节8个二进制位,其中最高位为符号位…

不需要new关键字创建实例?jQuery是如何做到的

这篇文章是jQuery源码专栏的开篇文章了,有人会问为什么都2024年了, 还要研究一个已经过时的框架呢,其实,jQuery对比vue和react这种响应式框架,其在使用上算是过时的,毕竟直接操作DOM远不如操作虚拟DOM来的方…

头歌资源库(16)分苹果

一、 问题描述 二、算法思想 首先,我们可以初始化一个数组apple来记录每个孩子分配的苹果数量,将所有元素初始化为1,表示每个孩子至少分配到一个苹果。 然后,从左到右遍历评分数组ratings,判断当前孩子的评分与前一个…

Docker 简介【虚拟化、容器化】

Docker 简介 Docker 简介什么是虚拟化、容器化案例 为什么要虚拟化、容器化?- 资源利用率高- 环境标准化- 资源弹性伸缩- 差异化环境提供- 沙箱安全- 容器对比虚拟机更轻量,启动更快- 维护和扩展容易 虚拟化实现方式应用程序执行环境分层- 硬件层&#x…

SpringBoot-注解@ImportResource引入自定义spring的配置xml文件和配置类

1、注解ImportResource 我们知道Spring的配置文件是可以有很多个的,我们在web.xml中如下配置就可以引入它们: SprongBoot默认已经给我们配置好了Spring,它的内部相当于已经有一个配置文件,那么我们想要添加新的配置文件怎么办&am…

数据仓库和数据库有什么区别?

一、什么是数据仓库二、什么是数据库三、数据仓库和数据库有什么区别 一、什么是数据仓库 数据仓库(Data Warehouse)是一种专门用于存储和管理大量结构化数据的信息系统。它通过整合来自不同来源的数据,为企业提供统一、一致的数据视图&…

示例:推荐一个自定义的Ribbon皮肤

一、目的:WPF自带的Ribbon控件功能很强大,但使用过程中感觉显示的样式不是很好,或者不适合自己的项目,下面介绍一个基于自带Ribbon控件样式的修改,主要修改了些高度,间距,背景色,前景…

es的检索-DSL语法和Java-RestClient实现

基本语法: GET /索引库名/_search {"query": {"查询类型": {"查询条件"}} }RestClient的导入在RestClient操作索引库和文档有介绍 查询所有: # 查询所有 GET /test/_search {"query": {"match_all"…

Go 三色标记法:一种高效的垃圾回收策略

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等

6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。 Diffusion Models 1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation LlamaGen,是一个…

学习VXLAN -- 报文结构、原理和配置

目录 VXLAN背景什么是VXLANVXLAN的优势VXLAN报文结构一些特定名词BDVBDIFVAPVSIVSI-InterfaceAC VXLAN的实现原理图VXLAN MAC地址表项MAC地址动态学习 VXLAN隧道VXLAN隧道工作模式L2 GatewayIP Gateway VXLAN隧道的建立与关联VXLAN隧道建立的方式VXLAN对到与VXLAN关联的方式 配…

搭建大型分布式服务(四十一)SpringBoot 整合多个kafka数据源-支持亿级消息生产者

系列文章目录 文章目录 系列文章目录前言一、本文要点二、开发环境三、原项目四、修改项目五、测试一下五、小结 前言 本插件稳定运行上百个kafka项目&#xff0c;每天处理上亿级的数据的精简小插件&#xff0c;快速上手。 <dependency><groupId>io.github.vipjo…

PD虚拟机和VMware有什么区别?PD虚拟机和VMware谁更好用?

随着电脑硬件设备的飞快发展&#xff0c;一些高端的技术已经不再遥不可及&#xff0c;比如虚拟化&#xff0c;虚拟机技术已经成为IT领域和个人用户不可或缺的工具。特别是PD虚拟机&#xff08;Parallels Desktop&#xff09;和VMware&#xff0c;作为市场上两个主流的虚拟机软件…

智能优化算法改进策略之局部搜索算子(四)--梯度搜索法

2、仿真实验 以海洋捕食者算法&#xff08;MPA&#xff09;为基本算法。考察基于梯度搜索的改进海洋捕食者算法&#xff08;命名为GBSMPA&#xff09; vs. 海洋捕食者算法&#xff08;MPA&#xff09; 在Sphere函数上的比较 在Penalized1函数上的比较 在CEC2017-1上的比较 在C…