【Python短期内快速掌握学习人工智能知识能力】:从零到入门的NLP学习秘籍

⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。
如果觉得本文能帮到您,麻烦点个赞👍呗!

近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支持一下呗。👍⭐️❤️
Qt5.9专栏定期更新Qt的一些项目Demo
项目与比赛专栏定期更新比赛的一些心得面试项目常被问到的知识点。


如何在暑期快速掌握学习人工智能知识能力:从零到入门的NLP学习秘籍

1 前言

随着人工智能的迅速发展,掌握AI知识已成为现代社会的重要技能。然而,仅仅了解工具的使用方法是不够的,还需要深入理解其背后的原理,避免误用和滞后性。无论你是刚入学的研究生还是正在职场打拼的打工人,都可能会面临相似的困惑:如何快速入门自然语言处理(NLP)。

作为一名研一新生或者初次接触NLP的职场人士,希望这篇文章能为你提供实用的指导和帮助。😊

整理了之前的研究生学习笔记 -
自然语言处理(NLP)入门指南,研一学习笔记-小白NLP入门学习笔记

2 学习新知识的小技巧

2.1 调整心态

首先,要调整好自己的心态。无论你现在是研究生阶段还是在职场打拼,更多时候是你在为导师或上司工作,而不仅仅是学习。在这个过程中,你可能会遇到一些杂事打乱你的计划。

2.2 明确学习方向

其次,必须对自己的学习有一个清晰的认识和规划。如果你已经联系上了导师或师兄师姐,并对自己的学习方向有了大致的了解,那么恭喜你,接下来就是要努力学习了。

但实际上,很多人可能会面临以下情况:

  • 没有联系上导师或上司
  • 没有联系上直系师兄师姐
  • 学习方向不明确,只知道自己学的是NLP
  • 导师或上司只给了一堆论文或资料让你看,啥也没说

不要慌,大多数实验室或职场的科研工作其实是没有人带的。你应该认真阅读这篇博文,了解如何度过研一或入职初期。

2.3 研究生暑假期间的任务

在暑假期间,了解自己的学习方向,至少知道研究方向的名称。

你应该养成阅读论文的习惯:

  • 学会阅读英文文献
  • 学会查找外国文献
  • 能够理解外文文献

3 学习的小小建议

3.1 学习方向

以我所学习的自然语言处理方向为例,首先你要知道这个方向的一个大题目标是啥。
首先,对Ai模型保持一定的探索
以下面为例:
比如我之前写过的一篇文章。以ChatGPT为例进行自然语言处理学习——入门自然语言处理
目前人工智能最为火热的ChatGPT
image-20230417100959287

相信各位小伙伴最近都听过ChatGPTGPT-4,百度的文言一心Kimi甚至有些同学也已经玩上了这些工具,大家都知道这是人工智能的产物,但是ChatGPT有哪些功能,我们进行一个简单的介绍。

我们输入一句:

作为一名刚入门自然语言处理的同学,第一堂课的学习,你能给些建议吗?

即使这个输入,可能含有错别字。

image-20230417101215054

那这背后运用的是那些技术的呢?

CV还是自然语言处理

0 什么是自然语言处理

上述设计到的模型所用的人工智能领域技术是自然语言处理,那么什么是自然语言处理呢?

我们来看一下维基百科上是如何进行定义的:

计算机科学与语言学领域交叉的一门学科,目的是让计算机能够理解、解释、生成人类语言。

这么说可能会优点抽象,简单来说就是:

自然语言处理 (Nautral Language Process, NLP) =自然语言理解(Natural Language Understand, NLU) + 自然语言生成
(Natural Language Generate, NLG)。

可能这在你看来是很神奇的一件事情,但其实ChatGPT也就做了这两部分的内容。

总的来说:NLP = NLU + NLR

ChatGPT可以说是自然语言处理综合应用的一个典型的模型了

image-20230417104322724

自然语言处理技术可以看出是两个阶段。

我们以ChatGPT为例,他是如何做到这些功能的呢?

(通过一个图 人–>电脑 电脑—人)

ChatGPT为例,我们每一次向他输入一段话的时候,会发生哪些事情呢?

image-20230323073852717

其中词法分析、句法分析、语义分析属于NLU任务,对话管理生成回复属于NLG任务。

我门进行一个简单的小结。

image-20230417104630271

1. 请教师兄师姐或同事

请教师兄师姐或同事是最直接的方式。通常情况下,你的师兄师姐或同事做什么,你大概率也会继续做下去,因为科研需要时间积累。

准研二不清楚就去问准研三的师兄。准研三的师兄都是宝藏!
上班可以多去Github上逛逛

2. 联系不上导师或同事

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/54463fad9在这里插入图片描述
fa9489fa3a381a1b001e85e.png)

如果联系不上导师或没有从事相关工作的同事,可以去学校官网查看导师的研究方向,或者公司其他组查看AI方向的项目,特别是近两年导师或公司发表的文章或项目研究方向,这大概率就是你将来需要做的方向。

在没有师兄师姐或同事带的情况下,你需要对大方向进行了解,方便自己后期找论文或资料看时缩小范围:

  • 直接拿老师或上司发表的近三年论文或项目报告来读
  • 用文献管理工具批量下载相关参考文献
  • 上GitHub找相关方向的知识点
  • 上知网查看其他人的硕士论文

这是我读研一时发现的方法,虽然我没怎么用,但名校的毕业论文比顶刊的英文论文好读多了,而且通俗易懂。

3.2 学习笔记

这里列出了一些我研一时的学习笔记:
在这里插入图片描述

  1. 我的研一笔记

  2. 机器学习入门笔记

  3. 神经网络基础学习笔记

研一上学期刚开始看文献时,显得很吃力,后悔得不行。以上是当时学习的部分笔记。学习时做好记录是必要的,后面翻看起来比较方便,不容易忘记。

4 论文阅读

当你对自己的研究方向有一定了解后,就可以开始大量阅读论文了。

小建议

对于一些较新的细分方向,通常没有很好的视频讲解。这时,你应该直接去找相关论文阅读。

第一步:英语基础较弱

建议先查看知网上的名校硕士/博士论文,看看是否有学者做过类似工作。尽量选择毕业论文。

小技巧:

知网在下载硕士或博士论文时通常不是PDF格式,可以通过首页的国际版下载成PDF格式。

第二步:看英文文献

学会使用文献管理工具,并借助一些英文阅读工具完成论文阅读。
一边看论文,一边养成管理文章的习惯。
可以参考我之前写的文章:研究生入门工具
绝对干活

第三步:记录文章知识盲点

针对知识盲区进行基础学习,比如遇到LSTM、RNN这些基础知识时,如果存在困惑就应进行有针对性的学习。这种系统学习的方式体验感极佳。

5 基础学习

如果开学前已经和导师取得联系,导师一般会发一些论文给你看。按照上面的论文阅读建议走,你就会大致知道需要补充哪些知识,从而进行系统学习。

如果时间充足,建议按照下面的学习流程走一遍,可能需要一个月左右的时间。

  1. Python的学习请查看机器学习初学者公众号
  2. 关于机器学习可以先看吴恩达的机器学习课程
  3. 深度学习入门:鱼书(非常推荐)
  4. NLP入门:
    1. 选一篇英文综述
    2. 补充基础知识:Word2Vec数学基础
    3. 看论文
    • 看完上面的内容可以专攻NLP
  • 补一下基础知识:Word2Vec

看一些论文综述对研究领域有大致了解、补充基础知识点

学习建议

  • Python的学习请查看机器学习初学者公众号,主要学习科学工具包、SKlearn等使用
  • 关于机器学习可以先看吴恩达的课程,研一这门课基本上是必修课,到时会重新学,所以看一遍做一下习题就差不多了
  • 深度学习方面,鱼书是必看的,可以补充神经网络的知识
    在这里插入图片描述

现在回忆起来 这本真是神书啊! 首先书不厚,讲得非常基础好懂,而且提供了丰富的代码!超级棒,感觉可以先看这本书再去看吴恩达的视频会更好,至少他这部分的神经网络,我觉得比吴恩达的手推公式好太多了(适合数学基础比较差的同学

多写代码:

6 写论文的工具

之前写了一篇关于科研论文学习的工具,写文章必备神器!!!

获得比较多的好评,我自己写文章的时候,也经常翻出来查查对应的内容!
科研论文写作神器——让你事半功倍的SCI论文写作神器
在这里插入图片描述

7 多练习编码

当然,学习机器学习不仅需要理论知识,还需要实际动手练习。这里有一段使用Python和Scikit-learn库的简单机器学习代码示例,展示了如何训练一个基本的分类模型。

# 导入必要的库
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 标准化数据
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 训练KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# 进行预测
y_pred = knn.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'模型准确率: {accuracy:.2f}')

这段代码使用鸢尾花数据集,训练了一个K近邻(KNN)分类器,并评估了模型在测试集上的准确率。通过这段代码,你可以了解数据预处理、模型训练和评估的基本流程。希望这对你的学习有所帮助!

8 小结

持续学习!
无论你是刚入学的研究生还是职场中的打工人,学习自然语言处理(NLP)都需要正确的心态和明确的方向。调整好心态,明确学习目标,利用暑期时间阅读相关文献和论文,补充基础知识是入门的关键。通过请教师兄师姐或同事,使用文献管理工具,并记录学习笔记,可以有效提升学习效率。掌握了这些技能和方法,你将能够在NLP领域迈出坚实的第一步。希望这篇文章能为你提供实用的指导和帮助。

喜欢文章的小伙伴们,麻烦点击下方三连支持一下哦!欢迎在评论下方留下你读研期间的疑惑。


⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。
如果觉得本文能帮到您,麻烦点个赞👍呗!

近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支持一下呗。👍⭐️❤️
Qt5.9专栏定期更新Qt的一些项目Demo
项目与比赛专栏定期更新比赛的一些心得面试项目常被问到的知识点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/686663.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于.NetCore和ABP.VNext的项目实战九:集成Hangfire实现定时任务处理

Hangfire 是一个开源的.NET 任务调度框架,它提供了内置集成化的控制台,允许用户直观明了地查看作业调度情况。它基于队列的任务处理机制,客户端使用 BackgroundJob 类的静态方法 Enqueue 来调用指定的方法或匿名函数,并将任务持久化到数据库。 本文将完成一个任务调度中心…

实验五、IPv4地址的子网划分,第1部分《计算机网络》

但凡你有点本事,也不至于一点本事都没有。 目录 一、实验目的 二、实验内容 三、实验小结 一、实验目的 完成本练习之后,您应该能够确定给定 IP 地址和网络掩码 的网络信息。本练习旨在让您掌握如何根据给定 IP 地址计算网络 IP 地址信息。 二、实验…

万里长城第一步——尚庭公寓【技术概述】

简略版: 项目概述主要是移动端(房源检索;预约看房,租赁管理,浏览历史)和后台管理(管理员对房源进行操作); 项目使用前后端分离的方法,主要以后端为主&#xf…

企业数据挖掘建模平台极简建模流程

泰迪智能科技企业数据挖掘建模平台是企业自主研发,面向企业级用户的快速数据处理构建模型工具。平台底层算法基于R语言、Python、Spark等引擎,使用JAVA语言开发,采用 B/S 结构,用户无需下载客户端,可直接通过浏览器进…

CANoe-Trace窗口无法解析SOME/IP报文、Demo License激活方式改变

1、Trace窗口无法解析SOME/IP报文 在文章《如何让CANoe或Wireshark自动解析应用层协议》中,我们通过设置指定端口号为SOME/IP报文的方式,可以让CANoe中的Trace窗口对此端口号的报文当成是SOME/IP报文进行解析。 Trace窗口就可以根据传输层端口号对payload数据按照SOME/IP协议…

【前端面试3+1】18 vue2和vue3父传子通信的差别、props传递的数据在子组件是否可以修改、如何往window上添加自定义属性、【多数元素】

一、vue2和vue3父传子通信的差别 1、Vue2 父组件向子组件传递数据通常通过props属性来实现。父组件可以在子组件的标签中使用v-bind指令将数据传递给子组件的props属性。在子组件中,可以通过props属性来接收这些数据。这种方式是一种单向数据流的方式,父…

Astar路径规划算法复现-python实现

# -*- coding: utf-8 -*- """ Created on Fri May 24 09:04:23 2024"""import os import sys import math import heapq import matplotlib.pyplot as plt import time 传统A*算法 class Astar:AStar set the cost heuristics as the priorityA…

【C++】 使用CRT 库检测内存泄漏

CRT 库检测内存泄漏 一、CRT 库简介二、CRT 库的使用1、启用内存泄漏检测2、设置应用退出时显示内存泄漏报告3、丰富内存泄漏报告4、演示使用 内存泄漏是 C/C 应用程序中最微妙、最难以发现的 bug,存泄漏是由于之前分配的内存未能正确解除分配而导致的。 最开始的少…

面试(02)————Java集合篇

目录 一、为什么数组索引是从0开始?如果从1开始不行吗? 二、ArrayList底层的实现原理是什么? ​编辑三、ArrayList list new ArrayList(10)中的list扩容几次? 四、如何实现数组与List之间的转换? 五、ArrayList…

计算机图形学入门07:光栅化中的采样与走样

1.什么是光栅化? 在前面的章节里提过,光栅化(Rasterization)就是将物体投影在屏幕上的图形,依据像素打散,每一个像素中填充不同的颜色。 如下图中的老虎,可以看到屏幕上有各种多边形,这些多边形经过各种变换…

线性回归模型详解

一、引言 在机器学习中,线性回归模型是最基础也是最重要的预测模型之一,它是监督学习的一个简单但强大的工具,用于预测输出变量(Y)与一个或多个输入变量(X)之间的关系。线性回归模型以其容易理…

动态IP与静态IP的优缺点

在网络连接中,使用动态和静态 IP 地址取决于连接的性质和要求。静态 IP 地址通常更适合企业相关服务,而动态 IP 地址更适合家庭网络。让我们来看看动态 IP 与静态 IP 的优缺点。 1.静态IP的优点: 更好的 DNS 支持:静态 IP 地址在…

【因果推断python】19_局部平均效应2

目录 局部平均干预效果:后期 对参与度的影响 关键思想 局部平均干预效果:后期 局部平均处理效应明确了我们可以估计因果效应的人群。这也是查看 IV 的另一种方式,它提供了我们可以使用的其他很酷的直觉。在现代 IV 中,我们将工…

气膜乒乓球馆:新型体育设施的投资机遇—轻空间

乒乓球作为我国的国球,不仅在世界舞台上表现卓越,在国民的心目中也占有重要位置。随着科技的进步,气膜乒乓球馆作为一种新型体育设施,正逐渐走入大众视野,为乒乓球爱好者提供了一个舒适、安全、环保的运动场所。那么&a…

加强校园气膜体育馆建设的必要性—轻空间

在现代教育中,体育运动作为学生全面发展的重要组成部分,受到越来越多的重视。为了满足学生的运动需求,提供更好的运动场所,加强气膜体育馆在校园中的建设变得尤为重要。气膜体育馆作为一种新型体育设施,凭借其独特的优…

打造精细化运维新玩法(一)

一、SLO介绍——为什么需要SLO 二、SLO健康度——从0到1构建SLO 三、AIOps赋能——SLO和智能化结合 四、案例介绍——实践场景和运营探索 五、总结 精细化运维是运维演进的必由之路,是综合业务需求、研发效能、稳定性保障、成本优化、架构治理等多种因素驱动的必…

纷享销客集成平台(iPaaS)的应用与实践

案例一 企业系统集成的产品级解决方案 概况 随着国家出台一系列鼓励LED照明产业发展与创新的规划和政策,以及国际市场全球演唱会、音乐会的活跃以及线上零售、商业地产等行业回暖,LED显示行业发展形势积极向好。深圳市艾比森光电股份有限公司&#xff…

【Java】static 类方法中注意事项

static 类方法中注意事项 目录 代码示例: package suziguang_d4_staticNote;public class Student {public int score 66;public static String name "zhangsan";// 1.类方法中可以直接访问类的成员,不可以直接访问实例成员public static v…

Virustotal查询恶意进程

1、使用netstat查看可疑进程 执行ls -al /proc/$PID/exe确认可疑进程对应的文件;若文件未被删除,则直接上传文件到Virustotal进行检测,或者计算出文件对应的md5,使用md5去Virustotal进行查询;若文件已被删除&#xff0…

MacOS M系列芯片一键配置多个不同版本的JDK

第一步:下载JDK。 官网下载地址:Java Archive | Oracle 选择自己想要下载的版本,一般来说下载一个jdk8和一个jdk11就够用了。 M系列芯片选择这两个,第一个是压缩包,第二个是dmg可以安装的。 第二步:编辑…