NLP简介

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

一、AI和NLP的基本介绍

1.人工智能的分类

弱人工智能:限定领域解决特定问题

强人工智能:通用领域胜任人类所有工作

超人工智能:远超人类智慧

2.人工智能研究方向

3.人工智能于机器学习的关系

人工智能的三驾马车:算法、算力、数据

4.自然语言处理(Natural Language Processing)

集语言学、数学、计算机科学为一体

自然语言处理的目标:人机交互、数据分析/挖掘

二、算法行业介绍

1.算法相关工作

(1)落地型

主要负责业务场景的算法落地,动手能力强

需要熟悉业务场景常见问题,极端情况的处理

难点:小坑不断,需求总改,数据常缺,效果老降

(2)研究型

主要负责发表论文及算法比赛等,理论知识扎实

研究内容可以脱离实际业务,在公开数据集上工作

难点:想好的思路已发表,比赛的分数被人超

2.项目人员构成

业务人员/甲方:一般是非程序员,根据业务场景需要,提出需求

产品经理:与业务对接,梳理需求,整理成开发的计划;或根据用户反馈等,提出自己的需求

开发人员:细分种类很多,人工智能方向一般大致分成算法开发和工程开发,合作处理整个项目

测试人员:专门进行测试,也可以进一步细分,一般也需要编程能力

运维人员:机器维护人员,服务器和数据库的重启、扩容、缩容等操作由他们进行,同时负责监控服务运行的状况

Optional:部署人员、数据标注人员、项目管理人员、平台维护人员等

3.项目主要流程&算法开发职责

①确认需求——业务发起需求评审

了解业务背景,以算法人员视角给出是否可行的意见

②确认技术方案——开发进行技术评审(算法方案+工程方案)

对问题的建模过程,需求转化成哪(几)种机器学习问题(或规则处理),需要哪些前置条件

③获取标注数据——算法或业务提出数据需求

建立标注规范,校验数据格式,抽样评估效果,训练集验证集划分;搜索开源数据;购买数据

④代码开发——模型训练、功能开发等

训练/预测代码开发,算法实验,对比效果

⑤测试——测试用例评审

功能测试,效果测试,性能测试,开发可以自测,配合测试组发现的问题做修改

⑥部署上线/投入使用——开发上线,测试验证,运维监控

每个公司使用框架有差异,根据实际情况处理

⑦后续迭代——业务提出优化需求

数据埋点,分析日志等

4.NLP面临的困难

①口吃系列:划分语义边界

eg.过几天天天天气不好

②分词系列:划分语义边界

eg.南京市长江大桥

③套娃系列:语言的递归性

eg.转发《自治区教育厅办公室关于转发<教育部关于xxxx的通知>的通知》的通知

④同文歧义系列:常识认知/社会认知

eg.单身的原因有两个,一是谁都看不上,二是谁都看不上

⑤反话正说系列:语序和语义的关联

eg.屡败屡战  屡战屡败

⑥崩溃系列

⑦英语系列

困难总结:NLP对于机器来说很困难,本质上是因为对人来说它也很困难。换句话说,这个任务本身的复杂度就非常高,远远高于下围棋等看似复杂,但实际有明确规则的任务。语言本身具有创造力,在不同领域和时代不断发生着变化。

三、发展历程

1.NLP的发展历程

图灵测试:让计算机来冒充人,与人展开对话。如果不足70%的人判对,也就是超过30%的人误以为在和自己说话的是人而非计算机,那就可以认为这台机器拥有人类智能。

1950年提出,是图灵的个人看法,并非当前业界的追求

2.NLP的发展现状

①深度学习大幅改变了NLP研究,极大的推进了NLP技术的发展。

②NLP技术已经深入生活的各个角落,输入法、语音助手、搜索引擎、智能客服等大量依赖NLP技术的应用已经被推广和使用。

③大语言模型的强大理解能力,让人们看到了强人工智能的曙光。

四、常用工具和框架介绍

1.常用编辑器

推荐Pycharm、VSCode以及Linux中的vim

2.机器学习相关python框架

Tensorflow  大名鼎鼎,工程配套完善

Pytorch  学术界宠儿,调试方便,目前的主流

Keras  高级封装,简单好用,现已和Tensorflow合体

Gensim  训练词向量常用

Sklearn  大量机器学习算法,如逻辑回归,决策树,支持向量机,随机森林,KMeans等等,同时具有数据集划分和各种评价指标的实现

Numpy  各种向量矩阵操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/780267.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

保存在FinalShell服务器登录密码忘记了,如何快速获取到

一、从FinalShell获取服务器基本信息 如图操作会导出一个json文件&#xff0c;可以直接保存在桌面&#xff0c;或者其他位置 json格式如下&#xff1a; {"forwarding_auto_reconnect":false ,"custom_size":false ,"delete_time":0 ,"sec…

从0到1制作单只鳌虾运动轨迹追踪软件

前言 需要准备windows10操作系统&#xff0c;python3.11.9&#xff0c;cuDNN8.9.2.26&#xff0c;CUDA11.8&#xff0c;paddleDetection2.7 流程&#xff1a; 准备数据集-澳洲鳌虾VOC数据集 基于RT-DETR目标检测模型训练导出onnx模型进行python部署平滑滤波处理视频帧保留的…

数字化精益生产系统--QMS质量管理系统

QMS质量管理系统&#xff08;Quality Management System&#xff09;是现代企业管理的关键组成部分&#xff0c;旨在确保产品和服务的质量达到或超过客户需求和期望。 以下是对QMS质量管理系统的功能设计&#xff1a;

ip地址突然变了一个城市怎么办

在数字化日益深入的今天&#xff0c;IP地址不仅是网络连接的标识&#xff0c;更是我们网络行为的“身份证”。然而&#xff0c;当您突然发现您的IP地址从一个城市跳转到另一个城市时&#xff0c;这可能会引发一系列的疑问和担忧。本文将带您深入了解IP地址突变的可能原因&#…

软件系统架构的一些常见专业术语

分层架构是逻辑上的&#xff0c;在物理部署上&#xff0c;三层结构可以部署在同一个物理机器上&#xff0c;但是随着网站业务的发展&#xff0c;必然需要对已经分层的模块分离部署&#xff0c;即三层结构分别部署在不同的服务器上&#xff0c;使网站拥有更多的计算资源以应对越…

信号与系统笔记分享

文章目录 一、导论信号分类周期问题能量信号和功率信号系统的线性判断时变&#xff0c;时不变系统因果系统判断记忆性系统判断稳定性系统判断 二、信号时域分析阶跃函数冲激函数取样性质四种特性1 筛选特性2 抽样特性3 展缩特性4 卷积特性卷积作用 冲激偶函数奇函数性质公式推导…

Java版Flink使用指南——安装Flink和使用IntelliJ制作任务包

大纲 安装Flink操作系统安装JDK安装Flink修改配置启动Flink测试 使用IntelliJ制作任务包新建工程Archetype 编写测试代码打包测试 参考资料 在《0基础学习PyFlink》专题中&#xff0c;我们熟悉了Flink的相关知识以及Python编码方案。这个系列我们将使用相对主流的Java语言&…

C++基础(十一):STL简介

从今天开始&#xff0c;我们正式步入STL的学习&#xff0c;STL&#xff08;标准模板库&#xff0c;Standard Template Library&#xff09;是C标准库的重要组成部分&#xff0c;提供了一系列通用的类和函数模板&#xff0c;包括容器、算法、迭代器等。它的设计极大地提高了代码…

中国科学技术大学发布了2024年少年班录取名单

7月7日&#xff0c;中国科学技术大学发布了2024年少年班录取名单公示&#xff0c;来自上海的12岁“小孩哥”刘尧进入名单。 据澎湃新闻此前报道&#xff0c;刘尧是因为此前通过了中科大少年班的校测考试&#xff0c;提前拿到了“高考体验券”。他所在的上海市实验学校&#xff…

柳叶刀:5Kg负重巡飞无人机技术详解

一、引言 随着无人机技术的不断发展&#xff0c;巡飞无人机在军事侦察、环境监测、边境巡逻等领域的应用日益广泛。其中&#xff0c;“柳叶刀”作为一款5Kg负重巡飞无人机&#xff0c;凭借其独特的机体结构、高效的动力系统、先进的飞行控制系统等技术优势&#xff0c;在众多无…

【位运算】基础算法总结

目录 基础位运算给一个数n&#xff0c;确定它的二进制表示的第x位是0还是1将一个数n的二进制表示的第x位修改成1将一个数n的二进制表示的第x位修改成0位图思想&#xff08;哈希表&#xff09;提取一个数&#xff08;n&#xff09;二进制表示中的最右侧的1&#xff08;lowbit&am…

KIVY 3D Rotating Monkey Head¶

7 Python Kivy Projects (With Full Tutorials) – Pythonista Planet KIVY 3D Rotating Monkey Head kivy 3D 旋转猴子头How to display rotating monkey example in a given layout. Issue #6688 kivy/kivy GitHub 3d 模型下载链接 P99 - Download Free 3D model by …

vue学习笔记(购物车小案例)

用一个简单的购物车demo来回顾一下其中需要注意的细节。 先看一下最终效果 功能&#xff1a; &#xff08;1&#xff09;全选按钮和下面的商品项的选中状态同步&#xff0c;当下面的商品全部选中时&#xff0c;全选勾选&#xff0c;反之&#xff0c;则不勾选。 &#xff08…

前端扫盲:cookie、localStorage和sessionStorage

cookie、localStorage和sessionStorage都是存储数据的方式&#xff0c;他们之间有什么不同&#xff0c;各有什么应用场景&#xff0c;本文为您一一解答。 一、什么是cookie、localStorage和sessionStorage 1. Cookie是一种存储在用户计算机上的小型文本文件&#xff0c;由服务…

和干瘪的列表说拜拜,看看卡片列表的精彩演绎

在移动UI设计中&#xff0c;卡片列表是一种常见的设计模式&#xff0c;可以将干瘪的列表变得更加生动和精彩。卡片列表通过使用卡片元素来呈现列表项&#xff0c;每个卡片可以包含图片、标题、描述、按钮等内容&#xff0c;使得列表项更加丰富和有趣。 以下是一些卡片列表的精彩…

网络防御保护——网络安全概述

一.网络安全概念 1.网络空间---一个由信息基础设施组成相互依赖的网络 。 网络空间&#xff0c;它跟以前我们所理解的网络不一样了&#xff0c;它不光是一个虚无缥缈的&#xff0c;虚拟的东西&#xff0c;它更多的是融入了我们这些真实的物理设备&#xff0c;也就意味着这个网…

数据库作业2

需求 一、在数据库中创建一个表student&#xff0c;用于存储学生信息 CREATE TABLE student( id INT PRIMARY KEY, name VARCHAR(20) NOT NULL, grade FLOAT ); 1、向student表中添加一条新记录 记录中id字段的值为1&#xff0c;name字段的值为"monkey"&#xff0…

1分钟了解LangChain是什么?

一: LangChain介绍 LangChain 是一个基于大型语言模型&#xff08;LLM&#xff09;开发应用程序的框架, 它旨在简化语言模型应用的开发流程&#xff0c;特别是在构建对话系统和其他基于语言的AI解决方案时.目标是将复杂的语言模型技术转化为可通过简单API调用实现的功能&#…

第T4周:使用TensorFlow实现猴痘病识别

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 文章目录 一、前期工作1.设置GPU&#xff08;如果使用的是CPU可以忽略这步&#xff09;2. 导入数据3. 查看数据 二、数据预处理1、加载数据2、数据可视化3、再…

Splunk Enterprise 中的严重漏洞允许远程执行代码

Splunk 是搜索、监控和分析机器生成大数据的软件领先提供商&#xff0c;为其旗舰产品 Splunk Enterprise 发布了紧急安全更新。 这些更新解决了几个构成重大安全风险的关键漏洞&#xff0c;包括远程代码执行 (RCE) 的可能性。 受影响的版本包括 * 9.0.x、9.1.x 和 9.2.x&…