[学习笔记]刘知远团队大模型技术与交叉应用L1-NLPBig Model Basics

本节主要介绍NLP和大模型的基础知识。提及了词表示如何从one-hot发展到Word Embedding。语言模型如何从N-gram发展成预训练语言模型PLMs。然后介绍了大模型在NLP任务上的表现,以及它遵循的基本范式。最后介绍了本课程需要用到的编程环境和GPU服务器。

一篇NLP方向的综述推荐

Advances in Natural Language Processing - Julia Hirschberg,Columbia University(见绑定资源)

基本任务和应用

包括词性标注(Part of speech tagging),命名实体识别,共指消解,依赖关系。对于中文,由于词与词没有空格,所以还有一个中文的自动分词的任务。
在这里插入图片描述

  • 搜索引擎和广告:如何衡量用户的query与所有document的语义相似度-NLP要解决的问题;利用互联网之间的链接信息判断网站或网页的质量-数据挖掘和信息检索关心的问题
  • Knowledge Graph:知识图谱里有非常多NLP问题,如给定一个用户的查询,如何去匹配或寻找最相关的实体,以及相关知识。如何从大规模文本中挖掘,构建大的知识图谱,如何获取三元组结构化知识,本身也需要NLP技术。
  • Knowledge Graph Application:Question Answering
  • Machine Reading:从文本中抽取结构知识,扩展和更新知识图谱
  • Personal Assistant
  • Machine Translation
  • Sentiment Analysis and Opinion Mining
  • Computational Social Science

词表示

词表示的目标:
1.计算词相似性:相似
2.推断词之间的关系
在这里插入图片描述

常用的词表示方式:one-hot表示

在这里插入图片描述
这种表示方法的缺点是:任意两个词都是相互正交的。不利于考虑相似性。

基于共现词次数的表示

NLP提出了一种contextual的distribution。
在这里插入图片描述
这种表示方法的缺点是:词表越大,存储要求越高;低频词很稀疏,导致不够鲁棒。

Word Embedding

构建一个低维稠密向量空间,学习每个词的低维稠密向量表示。
在这里插入图片描述

语言模型(Language Modeling)

语言模型的任务是预测下一个词。
它的工作包括两个:1.一个序列的词成为一句话的概率;2.根据已有的词序列,预测下一个词出现的概率。
在这里插入图片描述

基本假设

未来的词只会收到之前词的影响。这样联合概率就可以拆解成如下的条件概率。
在这里插入图片描述

N-gram Model

先介绍一种,在深度学习出现前,经典且重要的语言模型构建方式:N-gram。
以4-gram为例,讨论never to late to后面出现wj的概率,可以用语料库中,too late to wj出现的次数除以too late to出现的次数。
需要统计所有出现的n-gram序列的频度。
在这里插入图片描述
N-gram的问题是:
1.N一般只会取2或者3:因为取过大的N,序列在语料库中出现的次数会变少,会导致统计结果稀疏。同时过大的N会导致存储的量增大。
2.不能反映词之间的相似性:N-gram是基于符号去做统计,所以对它而言,所有词都是独立的。
在这里插入图片描述

神经语言模型

神经语言模型是基于神经网络来学习词的分布式表示的语言模型。
在这里插入图片描述
假设当前要预测第t个词为词i的概率,考虑前面n个词:
1.将前面n个词表示成低维向量(从Word Embedding学到的低维稠密向量空间中找到)。
2.拼接上面的低维向量,形成更高的上下文向量。
3.经过非线性转换。
4.利用这个向量来预测下一个词是什么。
所有词的向量,以及整个预测的过程,都是基于神经网络的可调节可学习参数来完成。因此可以利用大规模数据来学习这些向量。
在这里插入图片描述

大模型的发展历程

在这里插入图片描述

为什么大模型非常重要

在语言理解,语言生成(如对话系统任务)上,预训练语言模型(PLMs)已经比人类表现要好了。
在这里插入图片描述
18年开始,PLMs的三个趋势是:更多的参数;更大规模的语料数据;更大规模的分布式计算。这些方式能显著提升模型性能。
在这里插入图片描述
GPT-3中,我们可以看到PLMs所涌现出来的人类知识。这说明文本知识会被捕捉到PLMs中,并且在大量参数中存储下来。所以渐渐地,大家会将PLMs作为解决NLP问题的基础工具。
在这里插入图片描述
另一方面,GPT-3有很强的零/小样本学习的能力。
在这里插入图片描述

大模型背后的范式

预训练阶段,PLMs会从大量无标注数据中进行学习,通过一些自监督任务,去做预训练,从中得到丰富的知识。
在具体应用时候,会引入一些任务相关数据,然后对模型进行微调。
最终保留任务相关的知识。最终得到一个解决具体任务的模型。

在这里插入图片描述

编程环境和GPU服务器介绍

相关知识,如Linux命令,Git命令等,需要自己了解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/320893.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

还在因为版本不一致重装node吗,用它试试

一、卸载nodejs 首先卸载已安装的nodejs,总体分三步 1)打开控制面板,卸载nodejs 2)打开计算机->高级->环境变量,删除path中nodejs相关的配置 3)打开nodejs安装目录,整体删除 打开cmd,输入以下命令&#xff…

Android Studio下载gradle反复失败

我的版本:gradle-5.1.1 首先检查设置路径是否正确,参考我的修改! 解决方案 1.手动下载Gradle.bin Gradle Distributions 下载地址 注意根据编译器提示下载,我这要求下载的是bin 而不是all 2.把下载好的整个压缩包放在C:\Users\…

Uniapp软件库源码-全新带勋章等

测试环境:php7.1。ng1.2,MySQL 5.6 常见问题: 配置好登录后转圈圈,检查环境及伪静态以及后台创建好应用 上传图片不了,检查php拓展fileinfo 以及public文件权限 App个人主页随机背景图,在前端uitl文件夹里面…

数组深入详解

1、什么是数组? Java 语言中提供的数组是用来存储固定大小的同类型元素。 如:可以声明一个数组变量,如 numbers[100] 来代替直接声明 100 个独立变量 number0,number1,…,number99。 注意事项:…

第二百六十六回

文章目录 1. 概念介绍2. 分析与解决2.1 分析问题2.2 解决方案 3. 示例代码4. 内容总结 我们在上一章回中介绍了"如何修改CircleAvatar的大小"相关的内容,本章回中将介绍如何修改StatusBar中文字的颜色.闲话休提,让我们一起Talk Flutter吧。 1.…

鸿蒙Harmony-层叠布局(Stack)详解

我们总是为了太多遥不可及的东西去拼命,却忘了人生真正的幸福不过是灯火阑珊处的温暖,柴米油盐的充实,人生无论你赚的钱,是多还是少,经历的事情是好还是坏,都不如过好当下的每一天! 目录 一&am…

CF1178F1 Short Colorful Strip 题解

Short Colorful Strip 传送门 题面翻译 题目描述 这是F题的第一个子任务。F1和F2的区别仅在对于m和时间的限制上 有n1种颜色标号从0到n,我们有一条全部染成颜色0的长为m的纸带。 Alice拿着刷子通过以下的过程来给纸带染色: 我们按照从1到n的顺序进…

美国初创公司Rabbit推出口袋AI设备R1;吴恩达课程:使用LangChain.js构建强大的JavaScript应用

🦉 AI新闻 🚀 美国初创公司Rabbit推出口袋AI设备R1,短时间内被抢购一空 摘要:美国初创公司Rabbit在CES 2024上发布了口袋AI设备R1,这款设备在一天内被抢购一空,售价为199美元。R1具有小巧玲珑的触屏、摄像…

【线性表的基本操作实现及其应用 】

线性表的基本操作实现及其应用 1.实验目的 ⑴ 熟练掌握线性表的基本操作在两种存储结构上的实现,其中以熟悉各种链表的操作为重点。 ⑵ 巩固高级语言程序设计方法与技术,会用线性链表解决简单的实际问题。 2.实验原理与要求 ⑴ 按照数据结构实验任务书&…

【笔记】书生·浦语大模型实战营——第四课(XTuner 大模型单卡低成本微调实战)

【参考:tutorial/xtuner/README.md at main InternLM/tutorial】 【参考:(4)XTuner 大模型单卡低成本微调实战_哔哩哔哩_bilibili-【OpenMMLab】】 总结 学到了 linux系统中 tmux 的使用 了解了 XTuner 大模型微调框架的使用 pth格式参数转Hugging …

【量化交易故事】小明开启了量化创业之旅-01

故事开始于2023年的春天,小明是一位对金融市场充满热情的IT工程师。在经历了数次基于主观判断和个人情绪进行投资却收获平平后,他意识到传统交易方式中的人为因素难以避免,而这往往成为影响投资决策稳定性和准确性的关键障碍。在一次偶然的机…

工作压力测试

每个职场人都会遇到工作压力,在企业人力资源管理的角度来看,没有工作压力是人力资源的低效,适当的工作压力可以促使员工不断进取,然而每个人的抗压能力是不同的,同样的工作量和工作难度,不同的人在面对相同…

【Java语言基础②】Java基本语法——Java程序基本格式,注释,标识符,常量

通过前面的学习,大家对Java语言有了一个基础认识,但现在还无法使用Java语言编写程序,要熟练使用Java语言编写程序,必须充分掌握Java语言的基础知识。今天咱们就来聊一聊Java的基本语法。 1.java程序的基本格式 Java程序代码必须…

在win11中安装“mingw-w64-gcc-13.2-stable-r40”

在windows系统中,安装完VSCode后,还需要安装mingw,才可以使用C和C编译。 1、从MinGW-w64镜像站点:http://files.1f0.de/mingw,下载“mingw-w64-gcc-13.2-stable-r40”,见下图: 2、将“mingw-w6…

Centos7编译Python3.11源码并安装完成的详细教程

Python3.11的Linux源码: Index of /ftp/python/https://www.python.org/ftp/python/由于Centos7里自带的openssl是1.0版本的,而Centos Stream8和9用的是openssl-1.1.1版本的。 注意:openssl必须是openssl-1.1.1版本的,虽然最高版…

【大厂秘籍】 - Java多线程面试题

Java多线程面试题 友情提示,看完此文,在Java多线程这块,基本上可以吊打面试官了 线程和进程的区别 进程是资源分配的最小单位,线程是CPU调度的最小单位 线程是进程的子集,一个进程可以有很多线程,每条线…

10.9.2 std::function 存储函数对象 Page184

41行,pending只是inc的复制品,所以43,44行,不会改变inc()的值 demo_function2()的运行结果: 59行,pending是inc的引用,所以61,62行将会改变inc()的值

CloudFlare平台下载的WARP一直连不上(warp无法连接)解决办法

遇到问题: 解决办法: 下载一个warp选ip的文件夹,选一下ip就行了。 下载链接如下: https://pan.kejicode.cn/d/Onedrive/WIN%E7%AB%AFwarp%E8%87%AA%E9%80%89IP(%E6%89%8B%E5%8A%A8%2B%E8%87%AA%E5%8A%A8).rar?signRqBdHIMyyhg…

查询和结果处理的Java代码

match_all查询: //查询所有文档 match_all查询Testvoid testMatchAll() throws IOException {// 1.准备RequestSearchRequest request new SearchRequest("hotel");// 2.准备DSLrequest.source().query(QueryBuilders.matchAllQuery());// 3.发送请求Sea…

Apollo之原理和使用讲解

文章目录 1 Apollo1.1 简介1.1.1 背景1.1.2 简介1.1.3 特点 1.2 基础模型1.3 Apollo 四个维度1.3.1 application1.3.2 environment1.3.3 cluster1.3.4 namespace 1.4 本地缓存1.5 客户端设计1.5.1 客服端拉取原理1.5.2 配置更新推送实现 1.6 总体设计1.7 可用性考虑 2 操作使用…