LLM-Intro to Large Language Models

LLM

some LLM’s model and weight are not opened to user

what is?

Llama 270b model

  • 2 files

    • parameters file
      • parameter or weight of neural network
      • parameter – 2bytes, float number
    • code run parameters(inference)
      • c or python, etc
      • for c, 500 lines code without dependency to run
      • self contained package(no network need)
  • how to get parameters?

    • lossy compress large chunk of text (10TB) with 6000 GPU for 12 days (cost 200$) to 140G zip file(gestalt of the text, weights and parameters)
  • what neural do is trying to predict the next word in a sequence. parameters are dispersed throughout the neural network and neurons are connected to each other, fire in a certain way
    在这里插入图片描述

  • prediction has strong relationship with compression

  • LLM create a correct form of text and fill it with its knowedge. not create a copy of text that was be trained.

  • how does it work?

在这里插入图片描述
在这里插入图片描述

training stage

  • pre-training

    • expensive
    • base model. get a document generator model
    • it’s about knowledge
    • internet documents
  • fine tuning

    • cheaper
    • assistant model. get a assistant model
    • it’s about alighment
    • Q&A document
    • training with high quality conversation(question and answer).write labeling instructions to specify how assistant should behave
    • focus on quality not amount
      在这里插入图片描述
  • stage 3(optional)

    • use comparison label
    • reenforcement learning from human feedback

在这里插入图片描述

  • labeling is a human-machine collaboration

在这里插入图片描述

  • rank of LLM

在这里插入图片描述

LLM scaling laws:

  • more D and N will get better model

在这里插入图片描述

在这里插入图片描述

  • multimodality. now some LLM like GPT can use different tools to help it with answering questions. browser, calculator, python interpreter.

  • future directions of development in LLM

give LLM system 2 ablility

在这里插入图片描述
在这里插入图片描述

  • LLM now only have system one(instinctive)
  • convert time to accuracy

self-improvement

在这里插入图片描述

  • in narrow domain it is possible to self-improve

customization

experts in certain domain

future of LLM

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/215068.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Matlab和python详解数独谜题问题

🔗 运行环境:Matlab、Python 🚩 撰写作者:左手の明天 🥇 精选专栏:《python》 🔥 推荐专栏:《算法研究》 🔐#### 防伪水印——左手の明天 ####🔐 &#x1f4…

爱德华|书客|飞利浦护眼台灯好不好用?多方位测评对比爆料!

说到护眼台灯相信大家都不陌生,很多办公族、学生党都会备上一台用于工作、学习。因为长时间的工作或者学习,会明显的感觉到眼睛疲劳和不适。而护眼台灯可以很好的解决这个难题,因为护眼台灯是经过科学的设计和研发的,护眼台灯可以…

苹果录屏功能在哪?提升你的使用体验

屏幕录制已成为人们日常生活中不可或缺的一部分,苹果设备内置了强大的录屏功能,允许用户捕捉屏幕上的活动,可是很多用户不知道苹果录屏功能在哪。本文将详细介绍如何使用苹果内置录屏功能,为用户提供全面的录屏解决方案。 苹果录屏…

ESP32 LVGL Gui-Guider的移植

使用参考: ESP32系列之LVGL(三):Gui-Guider的使用_esp32 lvgl-CSDN博客 1、拷贝文件: 按照上面的文章,使用Gui-Guider软件生成C代码之后,custom和generated是我们要使用到的文件,…

36、红外遥控(外部中断)

红外遥控简介 红外遥控是利用红外光进行通信的设备,由红外LED将调制后的信号发出,由专用的红外接收头进行解调输出 通信方式:单工,异步 红外LED波长:940nm 通信协议标准:NEC标准 硬件电路 基本发送与接收…

海云安参与制定《信息安全技术 移动互联网应用程序(App)软件开发工具包(SDK)安全要求》标准正式发布

近日,由TC260(全国信息安全标准化技术委员会)归口 ,主管部门为国家标准化管理委员会,深圳海云安网络安全技术有限公司(以下简称“海云安”)等多家相关企事业单位共同参与编制的GB/T 43435-2023《…

鸿蒙Watch 页面跳转

新建页面 config.json 回自动注册 添加跳转 <button type"capsule" onclick"toStatusMonitor">状态检测</button>写跳转方法 import router from system.router;export default {data: {},onInit() {},onShow() {},toStatusMonitor() {rou…

GraphPad Prism 9:最强大的数据分析软件,助您轻松解析复杂数据!

您是否正在寻找一个功能强大、易于使用的数据分析软件&#xff1f;GraphPad Prism 9是您的最佳选择&#xff01;作为全球领先的科学数据分析工具&#xff0c;Prism 9提供了广泛的功能和先进的统计分析方法&#xff0c;帮助您轻松解析和可视化复杂的数据。 Prism 9不仅具备直观…

linux作业管理_jobs

4.2 作业管理 是指控制当前正在运行的进程的行为&#xff0c;也称为进程控制。 是shell的一个特性&#xff0c;使用户能在多个独立进程间进行切换。 例如&#xff0c;用户可以挂起一个正在运行的进程&#xff0c;稍后再恢复其运行。当用户使用vim编辑一个文本文件&#xff0c…

Android把宽高均小于给定值的Bitmap放大到给定值,Kotlin

Android把宽高均小于给定值的Bitmap放大到给定值&#xff0c;Kotlin 假设拉伸放大到SIZE2048 fun scaleSize(image: Bitmap): Bitmap {val w image.widthval h image.heightvar newW: Intvar newH: Intif (w > h) {newW SIZEnewH (SIZE / w.toFloat()) * h} else {newW …

【Springboot+vue】如何运行springboot+vue项目

从github 或者 gitee 下载源码后&#xff0c;解压&#xff0c;再从idea打开项目 后端代码处理 这是我在gitee下载下来的源码 打开之后&#xff0c;先处理后端代码 该配置的配置&#xff0c;该部署的部署 比如将sql文件导入数据库 然后去配置文件更改配置 然后启动项目 确保…

极米Z系列双十一销量超10万台 极米Z7X成轻薄投影首选

近期&#xff0c;极米2023双十一战报公布&#xff0c;双十一全周期&#xff08;10月19日00:00-11月11日23:59&#xff09;极米夺得京东/天猫/抖音投影品类销量&GMV双第一&#xff0c;全网单品总销量超190,000台。按照产品系列来看&#xff0c;极米家用旗舰H系列全网销量超4…

在项目根目录未找到 app.json

这个问题就是我们在编译后的app.json文件找不到&#xff0c;路径出现了问题 首先看dist下我们该文件的路径 所以我们需要将该路径配置到我们project.config.json文件中去 在这里新加下面这行代码就可以了&#xff0c; "miniprogramRoot": "dist/dev/mp-weixi…

【蓝桥杯选拔赛真题73】Scratch烟花特效 少儿编程scratch图形化编程 蓝桥杯创意编程选拔赛真题解析

目录 scratch烟花特效 一、题目要求 编程实现 二、案例分析 1、角色分析

16种数据分解方法任意挑选,MATLAB代码,实现数据分解自由,一次性全部带走,速看!...

目录 16种常用的数据分解方法 EMD(经验模态分解) EEMD(集合经验模态分解) CEEMD(互补集合经验模态分解) FEEMD(快速EEMD分解) CEEMDAN(完全自适应噪声集合经验模态分解) ICEEMDAN(改进的自适应噪声完备EEMD) LMD(局域均值分解) RLMD(鲁棒性局部均值分解) EWT(经验小波分解) VMD…

Kubernetes(K8s) Ingress介绍-08

Ingress介绍 在前面课程中已经提到&#xff0c;Service对集群之外暴露服务的主要方式有两种&#xff1a;NotePort和LoadBalancer&#xff0c;但是这两种方式&#xff0c;都有一定的缺点&#xff1a; NodePort方式的缺点是会占用很多集群机器的端口&#xff0c;那么当集群服务…

docker、docker-component安装

1.docker安装 #安装c环境 yum -y install gcc-c yum install -y yum-utils device-mapper-persistent-data lvm2 #添加yum的镜像地址 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo yum makecache fast #下载docker yum -y…

打印机文档被挂起无法打印怎么办?分享5个常见解决方法!

“我需要打印一份比较紧急的文件&#xff0c;但是当我需要用到打印机时&#xff0c;却发现打印机显示文档被挂起&#xff0c;根本就无法打印。这是为什么呢&#xff1f;我怎么解决打印机文档被挂起的问题呢&#xff1f;” 在我们的工作和学习中&#xff0c;可能经常需要使用打印…

宝宝洗衣机哪个牌子质量好?婴儿专用洗衣机推荐

对于宝妈来说有一款小型可以自动杀菌的洗衣机真的非常重要。我们日常生活中一般会把一些贴身衣物和较特殊的面料的衣物用于手洗&#xff0c;而手洗的过程会相对来说比较麻烦&#xff0c;而且还可能洗不干净&#xff0c;而传统的洗衣机采用了双缸式容易滋生霉菌&#xff0c;容易…

帆软报表不能增加SAP连接方式 通过插件一致性检测 同步至本地解决

帆软报表开发人员需要增加一个SAP数据连接方式&#xff1a;SAP_ECC_600环境 在服务器端不能直接增加&#xff0c;而在帆软报表设计器切换到远程模式时&#xff0c;又不能显示SAP连接&#xff0c;导致不能增加。 解决&#xff1a;重新进入帆软报表报计器时报以下错误&#xff0c…